Server hängt sich häufig auf (nserver.exe)

  • Hallo zusammen,


    habe hier ein gravierendes Problem mit einem unserer beiden Domino-Server, der sich leider seit drei-vier Wochen in unregelmäßigen Abständen - dummerweise nahezu täglich - aufhängt. Die Server sind in einem cluster verbunden, und Hard- und Softwareseitig identisch ausgestattet (Domino 7.0.1 FP1 mit deutschen Languagepack auf Windows Server 2003 mit allen verfügbaren Servicepacks und Patches). Der einzige gravierende Unterschied zwischen den Servern ist, dass auf dem zweiten Server ein Blackberry Enterprise Server mitläuft (v4.1.1). Glücklicherweise arbeiten die User derzeit noch alle auf dem ersten Server, so dass diese von dem Problem selten etwas mitbekommen...


    Der Server crasht allerdings nicht "richtig" - man kann im Taskmanager sehen, dass alle dominotypischen Prozesse weiterhin aktiv sind. Lediglich der Prozess nserver.exe steht mehr oder weniger konstant auf 23-25% CPU-Last, als wäre er mit irgendetwas schwer beschäftigt. Man kann in der Situation halt "nur" nicht mehr remote per Notes auf den betreffenden Server zugreifen. Auch die Blackberry-Tasks scheinen erstmal normal weiterzulaufen, da man in der Situation z.B. auch noch neue Emails auf dem Blackberry empfängt und auch z.B. das Adressbuch über den Blackberry abfragen oder Notes-verschlüsselte Mails entschlüsseln kann. Auch die Replizierung im Cluster klappt offenbar erstmal noch für einige Zeit, denn sonst würde der BES keine neuen Mails empfangen können. (Neue Mails werden am "ersten" Server abgeliefert, und entsprechend zum zweiten, der auch den BES beherbergt, repliziert)


    Leider kann ich das erste Auftreten des Problems zeitlich nicht mehr mit irgendeiner Konfigurations- oder Softwareveränderung in Verbindung bringen, was die Ursachenforschung erheblich erschwert. Auch die Logfiles sind für mich derzeit nur wenig aufschlussreich, wie im (anonymisierten) Auszug unten zu sehen ist. Das Problem tritt auch nicht immer zur gleichen Zeit auf: mal passiert's mitten in der Nacht, mal morgens früh um 8 (wie heute) oder auch irgendwann im Laufe des Tages. Habe schon diverses ausprobiert, wie z.B. das "große Service": compact & fixup & update über alle DB's laufen lassen, sowie die in der Zwischenzeit sowohl für Domino als auch für Blackberry erschienenen Patches und Service-Packs installiert. Das Verhalten bleibt aber leider weiterhin bestehen. Man sieht nur, dass irgendwann die Meldung Error "connecting to server domino-2/XYZ: Remote system no longer responding" im Log, bzw. auf der Konsole auftaucht. Sobald das eintritt, kann ich den Lotus Domino Service aber immerhin noch "normal" über den Windows-Service-Manager beenden. Sofern ich den Domino als Programm starte, kann ich auch über die geöffnete Konsole den Befehl "restart server" absetzen, was dann auch immerhin noch zum gewünschten Erfolg führt.


    Am liebsten würde ich ja irgendwie mal in den nserver.exe Task "reinschauen" um zu sehen, womit der sich in der Situation gerade rumplagt...


    Konkret wäre die Frage, was man in solch einer Situation noch machen kann, um die Fehlerursache zumindest ein wenig näher eingrenzen zu können.


    Da ich noch relativ "frisch" in der Domino-Administration bin, wären mir sachdienliche Hinweise zur Lösung des Problems, die für Euch in solchen Fällen vermutlich schon ganz selbstverständlich sind, eine wirklich große Hilfe!


    Im Extremfall bliebe mir wohl nur noch der Gang zu einer Firma wie EBF oder Pentos, die das ganze System dann mal zerpflücken müssten. Das würde ich allerdings wirklich nur sehr ungerne machen, da dies sicherlich mit nicht gerade unbeträchtlichen Kosten verbunden sein würde...



    Auszug aus dem heutigen Logfile des "Problemservers" (Kategorie Miscellaneous Events):


    17.08.2006 08:03:44 {Test User/XYZ} SRP: TID=219138, RID=-919131822, NID=A5CA, type MAIL returned DELIVERED
    17.08.2006 08:04:14 Begin MIME to CD Conversion (Process: ? (000016C4:00000006), Database: CN=domino-2/O=XYZ!!mail\user_t.nsf, Note: 0000864A)
    17.08.2006 08:04:14 End MIME to CD Conversion (Process: ? (000016C4:00000006), Database: CN=domino-2/O=XYZ!!mail\user_t.nsf, Note: 0000864A)
    17.08.2006 08:05:20 BES pending count 1125, sent 35, queued 1090
    17.08.2006 08:06:16 Chronos: Full text indexer terminating
    17.08.2006 08:07:53 {Test User3/XYZ} OTAFM: notification sent to handheld, TID=219139
    17.08.2006 08:08:58 AMgr: Executive '3' shutting down. Process id '8044'
    17.08.2006 08:08:58 AMgr: Executive '2' shutting down. Process id '6616'
    17.08.2006 08:09:00 Admin Process: Searching Administration Requests database
    17.08.2006 08:09:22 Begin MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
    17.08.2006 08:09:22 End MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
    17.08.2006 08:09:22 Begin MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
    17.08.2006 08:09:22 End MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
    17.08.2006 08:09:22 Begin MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
    17.08.2006 08:09:22 End MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
    17.08.2006 08:09:22 Begin MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
    17.08.2006 08:09:22 End MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
    17.08.2006 08:09:22 {Test User/XYZ} Message sent to handheld (PIN 12345678, "mail\user_t.nsf" on CN=Domino-1/O=XYZ): folder "($Inbox)", posted date 17.08.2006 08:07:10, added date 17.08.2006 08:09:22, TID=219140, RID=-2088378925, NID=A5CE
    17.08.2006 08:09:36 {Test User2/XYZ} Message queue: total pending packets=235, packets sent to wireless network=5, internal packets=0, queued events=231
    17.08.2006 08:09:54 Error connecting to server domino-2/XYZ: Remote system no longer responding


    17.08.2006 08:10:20 BES pending count 1127, sent 37, queued 1090
    17.08.2006 08:11:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
    17.08.2006 08:11:06 End MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
    17.08.2006 08:11:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
    17.08.2006 08:11:06 End MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
    17.08.2006 08:11:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
    17.08.2006 08:11:06 End MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
    17.08.2006 08:11:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
    17.08.2006 08:11:06 End MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
    17.08.2006 08:11:06 {Test User2/XYZ} Queued new message (PIN 12345678, "mail\user2_t.nsf" on CN=Domino-1/O=XYZ): folder "($Inbox)", posted date 15.08.2006 19:24:20, added date 17.08.2006 08:10:42, TID=219141, RID=-1996432940, NID=CEEE
    17.08.2006 08:12:05 Error connecting to server domino-2/XYZ: Remote system no longer responding


    17.08.2006 08:12:32 {Test User2/XYZ} Message queue: total pending packets=370, packets sent to wireless network=5, internal packets=0, queued events=366
    17.08.2006 08:13:14 {Test User3/XYZ} Message queue: total pending packets=1, packets sent to wireless network=1, internal packets=0, queued events=1
    17.08.2006 08:13:34 {Test User3/XYZ} Message queue: total pending packets=54, packets sent to wireless network=5, internal packets=0, queued events=50
    17.08.2006 08:14:01 {Test User5/XYZ} Queued new message (PIN 12345678, "mail\user5_t.nsf" on CN=Domino-1/O=XYZ): folder "($Sent)", posted date 17.08.2006 08:13:40, added date 17.08.2006 08:13:41, TID=219142, RID=-712753835, NID=16E1A
    17.08.2006 08:14:12 Begin MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
    17.08.2006 08:14:12 End MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
    17.08.2006 08:14:12 Begin MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
    17.08.2006 08:14:12 End MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
    17.08.2006 08:14:12 Begin MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
    17.08.2006 08:14:12 End MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
    17.08.2006 08:14:15 Error connecting to server domino-2/XYZ: Remote system no longer responding


    17.08.2006 08:15:20 BES pending count 1129, sent 37, queued 1092
    17.08.2006 08:16:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
    17.08.2006 08:16:06 End MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
    17.08.2006 08:16:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
    17.08.2006 08:16:06 End MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
    17.08.2006 08:16:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
    17.08.2006 08:16:06 End MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
    17.08.2006 08:16:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
    17.08.2006 08:16:06 End MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
    17.08.2006 08:16:06 {Test User3/XYZ} Queued new message (PIN 12345678, "mail\user4_t.nsf" on CN=Domino-1/O=XYZ): folder "($Inbox)", posted date 17.08.2006 09:13:19, added date 17.08.2006 08:15:40, TID=219143, RID=-628009514, NID=884EE
    17.08.2006 08:16:25 Error connecting to server domino-2/XYZ: Remote system no longer responding
    17.08.2006 08:16:30 Error connecting to server domino-2/XYZ: Remote system no longer responding
    17.08.2006 08:16:30 Error connecting to server domino-2/XYZ: Remote system no longer responding
    17.08.2006 08:16:30 Error connecting to server domino-2/XYZ: Remote system no longer responding
    17.08.2006 08:16:30 Error connecting to server domino-2/XYZ: Remote system no longer responding

  • Sagt das Windows-Log irgendwas sinnvolles dazu? Lässt sich die Büchse anpingen. Ich erinner mich dunkel an wilde Geschichten, dass der Domino so viele Netzwerkverbindungen aufgemacht hat, dass Windows dann irgendwann nicht mehr wollte. War aber -glaube ich- eine alte 5er Version...


    Und: versuch mal, einen nsd-Dump zu ziehen. Da siehst du dann ziemlich genau, was der Domino grad tut, oder auch nicht tut (Stichworte: "Panic" oder "Fatal")

    Life is not a journey to the grave with the intention of arriving safely in a pretty and well-preserved body, but rather to skid in broadside, thoroughly used up, totally worn out, and loudly proclaiming "Wow, what a ride!!! :evil:
    Beschleunigung ist, wenn die Tränen der Ergriffenheit waagrecht zum Ohr hin abfliessen - Walter Röhrl

  • das windows log ist an der stelle leider vollkommen unbrauchbar und sagt dbzgl. überhaupt nichts relevantes aus. es ist auch eben nicht so, dass ich nicht mehr remote übers netzwerk auf den server draufkäme: remote-desktop usw. funktioniert problemlos und der server ist auch prinzipiell im netzwerk erreichbar. er "unterhält" sich ja sogar offenbar noch mit seinem clusterpartner, wie oben beschrieben. offenbar ist aber eben die nserver.exe für die verbindungen auf den für notes relevanten ports zuständig und nimmt dort eben nichts mehr an.


    ein nsd-dump wäre sicherlich auch hilfreich, wenn der server denn "richtig" crashen würde, was er aber ja eben NICHT macht. nur die nserver.exe "hängt" und der server nimmt eben keine notes-verbindungen mehr an.
    falls nsd in solch einer situation aber dennoch einen aussagekräftigen output erzeugen könnte, wäre es interessant zu erfahren, wie ich diesen denn bekommen und interpretieren kann!?

  • will ja nicht undankbar erscheinen, aber der artikel bezieht sich offensichtlich auf unix-server, und enthält zudem noch deutlich weniger brauchbare informationen zu dem thema, als es die hilfedatei des domino adminstrators bei einer suche nach dem stichwort "nsd" zu tage fördert....


    ich könnte da in dem zusammenhang etwas konkretere tips gebrauchen, auf was man da in solch einer situation speziell achten sollte - insbesondere im zusammenhang mit dem BES, der vermutlich nicht ganz unschuldig an dem problem sein wird. der BES ist derzeit gewissermassen mein einziger "strohhalm" bzw. "verdächtiger", da er den einzigen offensichtlichen unterschied zum "ersten" server bildet.

  • hallo,
    das problem stand offenbar im zusammenhang mit der installation des deutschen languagepacks für den domino 7. habe den domino 7.0.1 mit FP1 kürzlich ein weiteres mal neu installiert, und dabei dann mal das deutsche languagepack weggelassen. seither läuft die kiste offenbar nun wieder rund.
    grüße,
    patrick