Server stürzt ab

  • Hallo Forum, plötzlich und ohne Vorwarnung :( Pausenlos stürzt der Domino 5 Server ab. Ich habe jetzt den ganzen Tag versucht den Fehler einzugrenzen. Meiner Vermutung ist das sobald die Tasks DECS, UPDATE, HTTP und/oder AMGR gestartet sind stürzt der Server mit folgenden Meldungen auf der Console ab (Anhang).
    Kann vielleicht irgend jemand diese Meldungen deuten.!? Es wurde meiner Kenntnis nach nichts eingespielt, upgedatet oder sonstige Veränderungen vorgenommen.
    Domino Server 5.09a dt. auf AS400 V5R2
    Notes Client's 5.01, 5.05, 5.09


    Hilfee!!
    Gruß Stefan


    p.s. fixup, updall, comp über alle DB's hat nix gebracht


    *************************+*****
    RunOnAll__10CAssistantFP13CDefActionCtxU 2891 ASSIST LIBNOTES ¬875782|
    Run__10CRawActionFP13CDefActionCtxUiPUl 1195 ACTION
    Run__18CRawActionSendMailFP13CDefActionC 2144 ATERM
    CompoundTextAddRenderedNote 100 EASYCD2
    EnumCompositeBuffer 18 ENUMCOMP
    RenderNoteEnum 465 EASYCD2
    AddField 1003
    MIMEConvertMIMEPart 691 MIMCONV
    MCConvertBodyParts 1 ICMAIN2
    MCConvert 25
    ICConvertMsgs 24 ICMSGCNV
    ICConvertMsg 15
    ICConvertBody 18 ICBDYCNV
    ICConvertMIMEorRFC822Body 13
    ICConvertMIMEBody 13
    ICMIMETypeMultiPart 43 ICMTMPAR
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 34
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 43
    CHMsgState 5 CHMSTATE
    ICSetStateMPar 8 ICMTMPAR
    ICPushMimeState 24
    ICCloneMIMEINFO 5
    ExceptionOccurred 1 NOTES0 AMGR
    kill 479 QP0SLIB QP0SSRV1
    qp0skill__FiT1 532 QP0SKILL QP0SSRV3
    fatal_error 42 BREAK LIBNOTES
    Tue Feb 15 12:46:14 Fault recovery is in progress: Fatal error, running di
    agnostics
    Tue Feb 15 12:46:21 Fault recovery is in progress: Terminating tasks
    Tue Feb 15 12:46:32 Fault recovery is in progress: Freeing resources
    Tue Feb 15 12:46:32 Fault recovery is in progress: Completed
    ********************************************************************************


    RunOnAll__10CAssistantFP13CDefActionCtxU 2891 ASSIST LIBNOTES ¬875712|
    Run__10CRawActionFP13CDefActionCtxUiPUl 1195 ACTION
    Run__18CRawActionSendMailFP13CDefActionC 2144 ATERM
    CompoundTextAddRenderedNote 100 EASYCD2
    EnumCompositeBuffer 18 ENUMCOMP
    RenderNoteEnum 465 EASYCD2
    AddField 1003
    MIMEConvertMIMEPart 691 MIMCONV
    MCConvertBodyParts 1 ICMAIN2
    MCConvert 25
    ICConvertMsgs 24 ICMSGCNV
    ICConvertMsg 15
    ICConvertBody 18 ICBDYCNV
    ICConvertMIMEorRFC822Body 13
    ICConvertMIMEBody 13
    ICMIMETypeMultiPart 43 ICMTMPAR
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 34
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 43
    CHMsgState 5 CHMSTATE
    ICSetStateMPar 8 ICMTMPAR
    ICPushMimeState 24
    ICCloneMIMEINFO 5
    ExceptionOccurred 1 NOTES0 AMGR
    kill 479 QP0SLIB QP0SSRV1
    qp0skill__FiT1 532 QP0SKILL QP0SSRV3
    fatal_error 42 BREAK LIBNOTES
    Tue Feb 15 12:38:01 Fault recovery is in progress: Fatal error, running di
    agnostics
    Tue Feb 15 12:38:11 Fault recovery is in progress: Terminating tasks
    Tue Feb 15 12:38:21 Fault recovery is in progress: Freeing resources
    Tue Feb 15 12:38:21 Fault recovery is in progress: Completed


    ******************************************************************************


    NotesStreamNew__FP7FTG_CTX 380 FTG_DSTR LIBFTGTR34 ¬884362
    |
    FTGetDocStream 15 FTSTREAM LIBNOTES
    NSFNoteOpenExt 5 NSFSEM3
    NSFNoteOpenExtended 32
    MIMEConvertMIMEParts 569 MIMCONV
    NSFItemEnumNameList 17 ITNAME
    MIMEConvertMIMEPartsEnum 721 MIMCONV
    MIMEConvertMIMEPart 691
    MCConvertBodyParts 1 ICMAIN2
    MCConvert 25
    ICConvertMsgs 24 ICMSGCNV
    ICConvertMsg 15
    ICConvertBody 18 ICBDYCNV
    ICConvertMIMEorRFC822Body 13
    ICConvertMIMEBody 13
    ICMIMETypeMultiPart 43 ICMTMPAR
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 34
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 43
    CHMsgState 5 CHMSTATE
    ICSetStateMPar 8 ICMTMPAR
    ICPushMimeState 24
    ICCloneMIMEINFO 5
    ExceptionOccurred 1 NOTES0 UPDATE
    kill 479 QP0SLIB QP0SSRV1
    qp0skill__FiT1 532 QP0SKILL QP0SSRV3
    fatal_error 42 BREAK LIBNOTES
    Tue Feb 15 18:34:47 Fault recovery is in progress: Fatal error, running di
    agnostics
    Tue Feb 15 18:34:49 Fault recovery is in progress: Terminating tasks
    Tue Feb 15 18:34:59 Fault recovery is in progress: Freeing resources
    Tue Feb 15 18:34:59 Fault recovery is in progress: Completed
    *******************************************************************************
    NotesStreamNew__FP7FTG_CTX 380 FTG_DSTR LIBFTGTR34 ¬884494
    FTGetDocStream 15 FTSTREAM LIBNOTES
    NSFNoteOpenExt 5 NSFSEM3
    NSFNoteOpenExtended 32
    MIMEConvertMIMEParts 569 MIMCONV
    NSFItemEnumNameList 17 ITNAME
    MIMEConvertMIMEPartsEnum 721 MIMCONV
    MIMEConvertMIMEPart 691
    MCConvertBodyParts 1 ICMAIN2
    MCConvert 25
    ICConvertMsgs 24 ICMSGCNV
    ICConvertMsg 15
    ICConvertBody 18 ICBDYCNV
    ICConvertMIMEorRFC822Body 13
    ICConvertMIMEBody 13
    ICMIMETypeMultiPart 43 ICMTMPAR
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 34
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 43
    CHMsgState 5 CHMSTATE
    ICSetStateMPar 8 ICMTMPAR
    ICPushMimeState 24
    ICCloneMIMEINFO 5
    ExceptionOccurred 1 NOTES0 CHRONOS
    kill 479 QP0SLIB QP0SSRV1
    qp0skill__FiT1 532 QP0SKILL QP0SSRV3
    fatal_error 42 BREAK LIBNOTES
    Tue Feb 15 19:36:03 Fault recovery is in progress: Fatal error, running di
    agnostics
    Tue Feb 15 19:36:05 Fault recovery is in progress: Terminating tasks
    Tue Feb 15 19:36:15 Fault recovery is in progress: Freeing resources
    Tue Feb 15 19:36:15 Fault recovery is in progress: Completed

  • Hallo, wenn nicht mit fixup oder compress, wie lassen sich sonst defekte DB's auffinden? Was meinst Du mit NSD? Das Notes Protokoll? Das habe ich von oben bis unten studiert. Es sind keine Einträge wie "Datenbamk beschädigt" vorhanden.
    Das System stürzt auch ab wenn der stündliche Tasks CHRONOS startet. Wo/wie kann man den abstellen?


    Ich weiß nicht mhr weiter.


    Gruß Stefan


    NotesStreamNew__FP7FTG_CTX 380 FTG_DSTR LIBFTGTR34 ¬885100
    |
    FTGetDocStream 15 FTSTREAM LIBNOTES
    NSFNoteOpenExt 5 NSFSEM3
    NSFNoteOpenExtended 32
    MIMEConvertMIMEParts 569 MIMCONV
    NSFItemEnumNameList 17 ITNAME
    MIMEConvertMIMEPartsEnum 721 MIMCONV
    MIMEConvertMIMEPart 691
    MCConvertBodyParts 1 ICMAIN2
    MCConvert 25
    ICConvertMsgs 24 ICMSGCNV
    ICConvertMsg 15
    ICConvertBody 18 ICBDYCNV
    ICConvertMIMEorRFC822Body 13
    rherige Unterbefehle und Nachrichten:
    ICConvertMIMEBody 13
    ICMIMETypeMultiPart 43 ICMTMPAR
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 34
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 43
    CHMsgState 5 CHMSTATE
    ICSetStateMPar 8 ICMTMPAR
    ICPushMimeState 24
    ICCloneMIMEINFO 5
    ExceptionOccurred 1 NOTES0 CHRONOS
    kill 479 QP0SLIB QP0SSRV1
    qp0skill__FiT1 532 QP0SKILL QP0SSRV3
    fatal_error 42 BREAK LIBNOTES
    Wed Feb 16 07:33:35 Fault recovery is in progress: Fatal error, running di
    agnostics
    Wed Feb 16 07:33:38 Fault recovery is in progress: Terminating tasks
    Wed Feb 16 07:33:48 Fault recovery is in progress: Freeing resources
    Wed Feb 16 07:33:48 Fault recovery is in progress: Completed

    • Offizieller Beitrag

    fahre den Server runter und kopiere die MailBoxen weg. Starte den Server neu.


    Jetzt kannst Du die wegkopierten MailBoxen am Client öffnen und Mail für Mail in die neuen Mailboxen kopieren. Achtung vorher den Agent "Paste" in der neuen Mailbox deaktivieren.


    Gruß
    Dirk

    Rein logisches Denken verschafft uns keine Erkenntnis über die wirkliche Welt.
    Alle Erkenntnis der Wirklichkeit beginnt mit der Erfahrung und endet mit ihr.
    Alle Aussagen, zu denen man auf rein logischen Wegen kommt, sind, was die Realität angeht, vollkommen leer.
    Albert Einstein

  • Hallo Dirk,
    habe denn Server beendet und die Mail.Box entfernt. Nach Neustart hat er eine neue Mail.Box erstellt. Danach habe ich den AMGR gestartet und der Server hat sich ca. 3 Minuten später wieder verabschiedet. (Anhang)
    *jaul*
    Vielleicht noch ne Idee? Bin für jeden Strohhalm dankbar.



    ******************************************************
    RunOnAll__10CAssistantFP13CDefActionCtxU 2891 ASSIST LIBNOTES ¬887552|
    Run__10CRawActionFP13CDefActionCtxUiPUl 1195 ACTION
    Run__18CRawActionSendMailFP13CDefActionC 2144 ATERM
    CompoundTextAddRenderedNote 100 EASYCD2
    EnumCompositeBuffer 18 ENUMCOMP
    RenderNoteEnum 465 EASYCD2
    AddField 1003
    MIMEConvertMIMEPart 691 MIMCONV
    MCConvertBodyParts 1 ICMAIN2
    MCConvert 25
    ICConvertMsgs 24 ICMSGCNV
    ICConvertMsg 15
    ICConvertBody 18 ICBDYCNV
    ICConvertMIMEorRFC822Body 13
    ICConvertMIMEBody 13
    rherige Unterbefehle und Nachrichten:
    ICMIMETypeMultiPart 43 ICMTMPAR
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 34
    CHMsgState 5 CHMSTATE
    ICDoStateMPar 3 ICMTMPAR
    ICMIMETypeMultiPart 43
    CHMsgState 5 CHMSTATE
    ICSetStateMPar 8 ICMTMPAR
    ICPushMimeState 24
    ICCloneMIMEINFO 5
    ExceptionOccurred 1 NOTES0 AMGR
    kill 479 QP0SLIB QP0SSRV1
    qp0skill__FiT1 532 QP0SKILL QP0SSRV3
    fatal_error 42 BREAK LIBNOTES
    Wed Feb 16 08:57:54 Fault recovery is in progress: Fatal error, running di
    agnostics
    Wed Feb 16 08:57:57 Fault recovery is in progress: Terminating tasks
    Wed Feb 16 08:58:07 Fault recovery is in progress: Freeing resources
    Wed Feb 16 08:58:07 Fault recovery is in progress: Completed

  • Eine mailx.box kann nicht Verursacher sein da zumindest in einem Fall der Agent Manager den Crash verursachte. In anderen Fällen verursachte der Chronos beim Volltextindexupdate den Crash, auch das schließt die Router Mailboxen aus.


    Genaugenommen kann es eine Mail in einer beliebigen Datenbank sein - wenn ihr mit HTTP auf anderen Datenbanken arbeitet kann es sogar ein beliebiges Dokument sein da das Webbrowserinterface Richtextfelder mit MIME füllt.


    Es ist kein direkt defektes Dokument oder eine defekte Datenbank da sonst der Fixup oder Compact das Problem behoben hätte.


    Mit NSD Log meinte ich nicht das Notes.log, sonst hätte ich Notes.log geschrieben. NSD ist ein System Debugger der im Crash Fall das Kill des Domino durchführt und dabei ein umfangreiches Protokoll in Form einer Textdatei generiert. Die Protokolle werden i.d.R. im DATA-Verzeichnis und mit einem eindeutigen Namen erzeugt der den Zeitpunkt des Crashs beinhaltet, sollte sich insofern finden lassen.

  • Eine LOG Datei fault_recovery.log mit hunderten von Seiten
    (s.A. ein Auszug davon) und eine Menge nsd_xxxx_xxx_xxx.nsd gibt's


    fault_revory.log
    Wed Mar 21 20:02:24 [1] STARTING FAULT RECOVERY by job: COMPACT/QNOTES/886265
    Wed Mar 21 20:02:25 [15] Running external script: CALL QNOTES/NSD
    Wed Mar 21 20:02:53 [2] Terminating process: SERVER/QNOTES/868285 PID (PPID) = 24 ( 23)
    Wed Mar 21 20:02:53 [2] Terminating process: HTTP/QNOTES/868287 PID (PPID) = 25 ( 24)
    Wed Mar 21 20:02:53 [2] Terminating process: REPLICA/QNOTES/868288 PID (PPID) = 26 ( 24)
    Wed Mar 21 20:02:53 [2] Terminating process: ROUTER/QNOTES/868289 PID (PPID) = 27 ( 24)
    Wed Mar 21 20:02:53 [2] Terminating process: MTC/QNOTES/868290 PID (PPID) = 28 ( 27)
    Wed Mar 21 20:02:53 [2] Terminating process: AMGR/QNOTES/868293 PID (PPID) = 31 ( 24)
    Wed Mar 21 20:02:53 [2] Terminating process: AMGR/QNOTES/868294 PID (PPID) = 32 ( 31)
    Wed Mar 21 20:02:53 [2] Terminating process: ADMINP/QNOTES/868296 PID (PPID) = 34 ( 24)
    Wed Mar 21 20:02:53 [2] Terminating process: SCHED/QNOTES/868297 PID (PPID) = 35 ( 24)
    Wed Mar 21 20:02:53 [2] Terminating process: CALCONN/QNOTES/868298 PID (PPID) = 36 ( 24)
    Wed Mar 21 20:02:53 [2] Terminating process: EVENT/QNOTES/868299 PID (PPID) = 37 ( 24)
    Wed Mar 21 20:02:59 [6] ERROR: Ignoring invalid process in queue: ROUTER/QNOTES/868289 PID (PPID) = 27 ( 24)
    Wed Mar 21 20:02:59 [6] ERROR: Ignoring invalid process in queue: ™?? PID (PPID) = 28 ( 27)
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 3
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 4
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 5
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 6
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 7
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 8
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 9
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 10
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 11
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 12
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 13
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 14
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 15
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 16
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 17
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 18
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 19
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 20
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 21
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 22
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 23
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 24
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 25
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 26
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 27
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 28
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 29
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 30
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 31
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 32
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 33
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 34
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 35
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 36
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 37
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 38
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 39
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 40
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 41
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 42
    Wed Mar 21 20:03:04 [7] Removed IPC: SHMEM 43
    Wed Mar 21 20:03:04 [18] FAULT RECOVERY COMPLETE

  • Die paar geposteten Zeilen enthalten leider keine nützlichen Infos bezogen aufs Problem, aber das wirst du dir sicher selber denken können.


    Wie du außerdem selber bereits festgestellt hast besteht das Log aus etlichen Tausend Einträgen, insofern bringts nichts das hier im Forum zu posten. Da ich aus Zeitgründen auch nicht wirklich vorhab hier einen kompletten Step-by-Step Crash-Kurs in Troubleshooting und Loganalyse abzuhalten hab ich dir mal eine PM geschickt.

  • Hallo ich hab noch ne NSD Datei entschlüsselt (EBCDIC-ASCII)
    bekommen. Bekomme die Datei aber leider nicht hochgeladen.
    Ansonsten bin ich keinen Meter weiter gekommen.


    Einer hat mir vorgeschlagen einen Releasewechsel auf 5.0.10 durchzuführen. ?? Wohl weniger sinnvoll bei einem instabilem System bzw. unbekannten Fehler , oder??


    :hammer: :hammer: :hammer: :hammer: :hammer:

  • Also das letzte was ich jetzt tun würde wär ein Releasewechsel, im schlimmsten Fall crasht die Maschine während irgendwelcher DB-Updates und dann hast du erst ein richtiges Problem.


    Bis jetzt ists halt irgendein Dokument mit einem unglücklichen/defekte Inhalt aber eben noch völlig intakten DB-Strukturen. Das ist mit etwas Arbeit und Erfahrung in weniger als 2 Stunden gefunden und bereinigt. Ich hatte dir dazu eine Mail geschickt.


    Solang eben der Verursacher nicht identifiziert ist wär ich vorsichtig (oder du hast gute Backups, Experimentierfreude und Zeit).

  • Hallo
    Unglaublich aber wahr! es läuft wieder ...
    Es war tatsächlich eine einzige DB beschädigt und zwar so beschädigt das sich der Server jedesmal komplett verabschiedet hat. Nur schwer war der Verursacher zu finden. Eigentlich nur noch über das Ausschlussverfahren. Alle DB wegkopieren, dann den Server starten um festzustellen das es keine Systemdatei ist. Läuft !... dann wieder runter fahren ... und paarweise die DB's wieder zurück kopieren ... Server wieder hoch ... Server wieder runter ... der nächste Schwung DB's ... solange bis am Schluß nur noch eine einzige Datei übrig blieb ... eine MailIn Datenbank ... für mich sehr kurios das es eine einzige Datei/DB schafft das ganze System auszuhebeln ...
    Das heißt Eure Ideen, Vorschläge, Ansätze liefen eigentlich genau in die richtige Richtung. Vielen Dank nochmal, besonders Dir CarstenH für die schnellen Antworten und Unterstützungen.
    Gruß Stefan


    p.s.
    ein wenig Hilfe hier vor Ort hatte ich ... nämlich von Eurem OberGuru ... :roll:


    edited by muerte: hab mal die doppelten einträge gelöscht