Domino stürzt mehrmals täglich ab - Bin Ratlos...

  • Hallo,


    wir haben 2 Notes-Server am laufen. Einer ist rein für die Maildatenbanken da, der andere ist für die restlichen Datenbanken da...


    Ich habe nun seit ca. 1 Monat das Problem, dass mir bei einem Server (der, wo die ganzen Datenbanken drauf sind) am Tag mind. 1 mal (im Schnitt jedoch 2-3 mal) der Domino-Task abstürzt... Er beendet sich einfach und startet sofort wieder neu, das ganze dauert ca. 10 Minuten, bis der Server wieder läuft...


    Ich bin inzwischen ratlos, was es sein könnte, bzw. was ich noch überprüfen könnte...


    Ich habe Windows-seitig bereits die Hardwarelast aufgezeichnet. Es sind keine Spitzen dabei...
    Ich habe bereits den Arbeitsspeicher komplett ausgetauscht...
    Eine Datenträgerprüfung habe ich bereits laufen lassen...
    Ich habe die Log's durchgeschaut (auch Console-Log), jedoch keinen Fehler oder Hinweis auf etwas gefunden, wo den "Crash" verursachen könnte...


    Bei Beginn der Abstürze wurde auch nix geändert... Das letzte Update einer Datenbank wurde 1 1/2 Wochen vor dem Beginn der Abstürze installiert... Es wurden keine Änderungen an der Notes.ini oder sonstiger Config geändert...


    Hat jemand noch einen Tipp für mich, was ich prüfen könnte oder wo ich nachschauen könnte, woran es liegt??


    Gruß,
    Chris G.

  • Die letzten Einträge varieren immer... Mal ist es ein eingegangenes SMTP-Mail von einem Drucker (MFP), dann ist es mal der HTTP-Task, der gelaufen ist, dann ist es mal irgendein Agent... Also nichts, wo ich sagen könnte "Innerhalb der letzten 5 Minuten vor dem Absturz kommt immer dasunddas vor"... Ich habe mir immer vorrangig (aber nicht nur) die Console-Log vorgenommen, da dort einfach detaillierter steht, was gelaufen ist, als bei der Notes-Log (log.nsf)


    Mit den NSD's kenn ich mich nicht allzugut aus... Ich weiss leider nicht, wie ich sie auswerten kann... Dort steht haufenweise drin, jedoch weiss ich nicht, worauf ich in den Dateien achten muss...
    Kannst du mir hierbei weiterhelfen und mir sagen, wo ich mich über die Auswertung von NSD-Dateien schlau machen kann?

  • Prinzipiell kannst du in den NSDs mal nach FATAL bzw PANIC suchen.


    Ansonsten gibt es noch den NSD Log Analyzer oder aber du schickst das ganze an IBM bzw fragst einen Dienstleister der es dir auswertet und genauere Infos liefert.


    Um genaueres sagen zu können sind halt auch noch die Rahmendaten des Servers wichtig, also OS, Speicher, Ausstattung, ....

  • Ah, das Wort "FATAL" hat mir schonmal weitergeholfen...


    In der letzten NSD kommen genau 3 Einträge mit FATAL vor (kein einziger mit PANIC) und jeweils bei dem HTTP-Task... Also scheint hier irgendwo der Hund begraben zu liegen...


    Ich werd mir jetzt nochmal die komplette Konfiguration des HTTP-Tasks im Serverdokument mal genauer anschauen...


    Wir haben als OS noch Server 2003 mit 4 GB RAM und einem Plattenarray, basiert auf RAID 5...


    Aber den NSD Log Analyzer werd ich mir bei Gelegenheit auch mal genauer anschauen... ;)


    Vielen, vielen Dank schonmal.


    Ich setze die Anfrage erstmal auf "Erledigt"...

  • Hallo nochmals,


    also ich bin inzwischen etwas weitergekommen... Leider finde ich den finalen Knackpunkt nicht...


    Bei uns bringt wirklich immer der HTTP-Task den Domino zum Absturz... Über den HTTP-Task greift bei uns auch nur ein Server drauf zu. Daher sitze ich nun schon einige Zeit mit dem Entwickler dieses Servers zusammen. Wir finden leider die Ursache nicht... Der Entwickler hat bereits einen "Stresstest" programmiert, wo Anfragen ohne Ende an den Domino stellt... Den Test haben wir am Wochenende durchgeführt, leider ist dabei der Domino nicht abgestürzt (Last vom HTTP war durchschnittlich bei 80% lt. Domino-Administrator)...


    Jetzt meine Frage:
    Es gibt für jeden Absturz nicht nur die NSD (welche wir mit "Lotus Notes Diagnostic" durchstöbern), sondern auch eine core_nttp_xxxxxxxxxxx.dmp an.
    Die Datei meistens ca. 150 kb gross, aber jedoch ca. 1/10 davon ist über 800 MB gross... Im Editor kann ich damit nix anfangen (Hyroglyphen)... Mit welchem Tool kann ich mir den Inhalt dieser Dateien anschauen? Ich hoffe, dass wir dort einen Hinweis auf die Abstürze finden...

  • Ja, das habe ich schon gesehen... Jedoch geht es dort um Windows CrashDump's (Speicherabbild)...


    Windows ist mir jedoch noch kein einziges mal abgestürzt, immer nur der Domino-Part...

  • Hmm, ok, eigentlich logisch... Ich glaub ich bin schon langsam blöd vor lauter NSD's anschauen ;)


    Naja, ein Versuch ist's zumindest wert... Da wir wirklich garnix finden, versuch ich inzwischen sogut wie alles... (Habe inzwischen sogar mal beim RAID nach und nach die Platten getauscht, sodass inzwischen komplett andere Platten drin sind, damit ich hier den Fehler ausschliessen kann...)...


    Wenn du noch Tipps für mich hast, was ich prüfen könnte, wäre ich natürlich sehr dankbar...

  • Wäre nicht die Eröffnung eines PMR bei der IBM langsam angeraten?
    Da das Problem offenbar schon längere Zeit besteht, sollte sich doch zumindest mit Unterstützung der IBM beim Lesen der NSDs die Ursache finden und eingrenzen lassen.


    BTW: Um welche Domino Version handelt es sich eigentlich?


    Lässt sich evtl. die HTTP Task mal für 1-2 Tage abstellen, um zu sehen ob es wirklich daran liegt (z.B. von Freitag Nachmittag bis Montag früh) - wenn der Server denn schon wirklich jeden Tag mehrfach abschmiert?

    Bye
    Torsten


    IBM Advanced Certified System Administrator - Lotus Notes and Domino 8.5