Hallo zusammen,
habe hier ein gravierendes Problem mit einem unserer beiden Domino-Server, der sich leider seit drei-vier Wochen in unregelmäßigen Abständen - dummerweise nahezu täglich - aufhängt. Die Server sind in einem cluster verbunden, und Hard- und Softwareseitig identisch ausgestattet (Domino 7.0.1 FP1 mit deutschen Languagepack auf Windows Server 2003 mit allen verfügbaren Servicepacks und Patches). Der einzige gravierende Unterschied zwischen den Servern ist, dass auf dem zweiten Server ein Blackberry Enterprise Server mitläuft (v4.1.1). Glücklicherweise arbeiten die User derzeit noch alle auf dem ersten Server, so dass diese von dem Problem selten etwas mitbekommen...
Der Server crasht allerdings nicht "richtig" - man kann im Taskmanager sehen, dass alle dominotypischen Prozesse weiterhin aktiv sind. Lediglich der Prozess nserver.exe steht mehr oder weniger konstant auf 23-25% CPU-Last, als wäre er mit irgendetwas schwer beschäftigt. Man kann in der Situation halt "nur" nicht mehr remote per Notes auf den betreffenden Server zugreifen. Auch die Blackberry-Tasks scheinen erstmal normal weiterzulaufen, da man in der Situation z.B. auch noch neue Emails auf dem Blackberry empfängt und auch z.B. das Adressbuch über den Blackberry abfragen oder Notes-verschlüsselte Mails entschlüsseln kann. Auch die Replizierung im Cluster klappt offenbar erstmal noch für einige Zeit, denn sonst würde der BES keine neuen Mails empfangen können. (Neue Mails werden am "ersten" Server abgeliefert, und entsprechend zum zweiten, der auch den BES beherbergt, repliziert)
Leider kann ich das erste Auftreten des Problems zeitlich nicht mehr mit irgendeiner Konfigurations- oder Softwareveränderung in Verbindung bringen, was die Ursachenforschung erheblich erschwert. Auch die Logfiles sind für mich derzeit nur wenig aufschlussreich, wie im (anonymisierten) Auszug unten zu sehen ist. Das Problem tritt auch nicht immer zur gleichen Zeit auf: mal passiert's mitten in der Nacht, mal morgens früh um 8 (wie heute) oder auch irgendwann im Laufe des Tages. Habe schon diverses ausprobiert, wie z.B. das "große Service": compact & fixup & update über alle DB's laufen lassen, sowie die in der Zwischenzeit sowohl für Domino als auch für Blackberry erschienenen Patches und Service-Packs installiert. Das Verhalten bleibt aber leider weiterhin bestehen. Man sieht nur, dass irgendwann die Meldung Error "connecting to server domino-2/XYZ: Remote system no longer responding" im Log, bzw. auf der Konsole auftaucht. Sobald das eintritt, kann ich den Lotus Domino Service aber immerhin noch "normal" über den Windows-Service-Manager beenden. Sofern ich den Domino als Programm starte, kann ich auch über die geöffnete Konsole den Befehl "restart server" absetzen, was dann auch immerhin noch zum gewünschten Erfolg führt.
Am liebsten würde ich ja irgendwie mal in den nserver.exe Task "reinschauen" um zu sehen, womit der sich in der Situation gerade rumplagt...
Konkret wäre die Frage, was man in solch einer Situation noch machen kann, um die Fehlerursache zumindest ein wenig näher eingrenzen zu können.
Da ich noch relativ "frisch" in der Domino-Administration bin, wären mir sachdienliche Hinweise zur Lösung des Problems, die für Euch in solchen Fällen vermutlich schon ganz selbstverständlich sind, eine wirklich große Hilfe!
Im Extremfall bliebe mir wohl nur noch der Gang zu einer Firma wie EBF oder Pentos, die das ganze System dann mal zerpflücken müssten. Das würde ich allerdings wirklich nur sehr ungerne machen, da dies sicherlich mit nicht gerade unbeträchtlichen Kosten verbunden sein würde...
Auszug aus dem heutigen Logfile des "Problemservers" (Kategorie Miscellaneous Events):
17.08.2006 08:03:44 {Test User/XYZ} SRP: TID=219138, RID=-919131822, NID=A5CA, type MAIL returned DELIVERED
17.08.2006 08:04:14 Begin MIME to CD Conversion (Process: ? (000016C4:00000006), Database: CN=domino-2/O=XYZ!!mail\user_t.nsf, Note: 0000864A)
17.08.2006 08:04:14 End MIME to CD Conversion (Process: ? (000016C4:00000006), Database: CN=domino-2/O=XYZ!!mail\user_t.nsf, Note: 0000864A)
17.08.2006 08:05:20 BES pending count 1125, sent 35, queued 1090
17.08.2006 08:06:16 Chronos: Full text indexer terminating
17.08.2006 08:07:53 {Test User3/XYZ} OTAFM: notification sent to handheld, TID=219139
17.08.2006 08:08:58 AMgr: Executive '3' shutting down. Process id '8044'
17.08.2006 08:08:58 AMgr: Executive '2' shutting down. Process id '6616'
17.08.2006 08:09:00 Admin Process: Searching Administration Requests database
17.08.2006 08:09:22 Begin MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
17.08.2006 08:09:22 End MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
17.08.2006 08:09:22 Begin MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
17.08.2006 08:09:22 End MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
17.08.2006 08:09:22 Begin MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
17.08.2006 08:09:22 End MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
17.08.2006 08:09:22 Begin MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
17.08.2006 08:09:22 End MIME to CD Conversion (Process: ? (000016C4:00000009), Database: CN=Domino-1/O=XYZ!!mail\user_t.nsf, Note: 0000A5CE)
17.08.2006 08:09:22 {Test User/XYZ} Message sent to handheld (PIN 12345678, "mail\user_t.nsf" on CN=Domino-1/O=XYZ): folder "($Inbox)", posted date 17.08.2006 08:07:10, added date 17.08.2006 08:09:22, TID=219140, RID=-2088378925, NID=A5CE
17.08.2006 08:09:36 {Test User2/XYZ} Message queue: total pending packets=235, packets sent to wireless network=5, internal packets=0, queued events=231
17.08.2006 08:09:54 Error connecting to server domino-2/XYZ: Remote system no longer responding
17.08.2006 08:10:20 BES pending count 1127, sent 37, queued 1090
17.08.2006 08:11:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
17.08.2006 08:11:06 End MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
17.08.2006 08:11:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
17.08.2006 08:11:06 End MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
17.08.2006 08:11:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
17.08.2006 08:11:06 End MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
17.08.2006 08:11:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
17.08.2006 08:11:06 End MIME to CD Conversion (Process: ? (000016C4:00000011), Database: CN=Domino-1/O=XYZ!!mail\user2_t.nsf, Note: 0000CEEE)
17.08.2006 08:11:06 {Test User2/XYZ} Queued new message (PIN 12345678, "mail\user2_t.nsf" on CN=Domino-1/O=XYZ): folder "($Inbox)", posted date 15.08.2006 19:24:20, added date 17.08.2006 08:10:42, TID=219141, RID=-1996432940, NID=CEEE
17.08.2006 08:12:05 Error connecting to server domino-2/XYZ: Remote system no longer responding
17.08.2006 08:12:32 {Test User2/XYZ} Message queue: total pending packets=370, packets sent to wireless network=5, internal packets=0, queued events=366
17.08.2006 08:13:14 {Test User3/XYZ} Message queue: total pending packets=1, packets sent to wireless network=1, internal packets=0, queued events=1
17.08.2006 08:13:34 {Test User3/XYZ} Message queue: total pending packets=54, packets sent to wireless network=5, internal packets=0, queued events=50
17.08.2006 08:14:01 {Test User5/XYZ} Queued new message (PIN 12345678, "mail\user5_t.nsf" on CN=Domino-1/O=XYZ): folder "($Sent)", posted date 17.08.2006 08:13:40, added date 17.08.2006 08:13:41, TID=219142, RID=-712753835, NID=16E1A
17.08.2006 08:14:12 Begin MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
17.08.2006 08:14:12 End MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
17.08.2006 08:14:12 Begin MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
17.08.2006 08:14:12 End MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
17.08.2006 08:14:12 Begin MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
17.08.2006 08:14:12 End MIME to CD Conversion (Process: ? (000016C4:00000005), Database: CN=Domino-1/O=XYZ!!mail\user3_t.nsf, Note: 000F22E6)
17.08.2006 08:14:15 Error connecting to server domino-2/XYZ: Remote system no longer responding
17.08.2006 08:15:20 BES pending count 1129, sent 37, queued 1092
17.08.2006 08:16:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
17.08.2006 08:16:06 End MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
17.08.2006 08:16:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
17.08.2006 08:16:06 End MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
17.08.2006 08:16:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
17.08.2006 08:16:06 End MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
17.08.2006 08:16:06 Begin MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
17.08.2006 08:16:06 End MIME to CD Conversion (Process: ? (000016C4:00000016), Database: CN=Domino-1/O=XYZ!!mail\user4_t.nsf, Note: 000884EE)
17.08.2006 08:16:06 {Test User3/XYZ} Queued new message (PIN 12345678, "mail\user4_t.nsf" on CN=Domino-1/O=XYZ): folder "($Inbox)", posted date 17.08.2006 09:13:19, added date 17.08.2006 08:15:40, TID=219143, RID=-628009514, NID=884EE
17.08.2006 08:16:25 Error connecting to server domino-2/XYZ: Remote system no longer responding
17.08.2006 08:16:30 Error connecting to server domino-2/XYZ: Remote system no longer responding
17.08.2006 08:16:30 Error connecting to server domino-2/XYZ: Remote system no longer responding
17.08.2006 08:16:30 Error connecting to server domino-2/XYZ: Remote system no longer responding
17.08.2006 08:16:30 Error connecting to server domino-2/XYZ: Remote system no longer responding