Beiträge von SVHA

SVHA · 17. Mai 2006

hallo zusammen,

ich habe gerade zufällig diesen thread gesehen.

wir hatten vor einiger zeit ebenfalls grosse probleme mit panic handle abstürzen und mussten uns damit bis zum ibm entwicklersupport durchkämpfen. mit bedingt brauchbaren ergebnissen.

das schlimmste ist, dass sich zumindest bei uns der fehler ausweitete, will sagen begann immer häufiger aufzutreten.

ich gebe hier einfach mal weiter, was sich daraus für uns ergeben hat. möglicherweise hilft das ja weiter. bei bedarf kann man mich auch über svhamailbox@web.de erreichen. das hier alles wiederzugeben dauert zu lange.

es gibt offenbar zwei mögliche hauptursachen.

1:
ältere server leiden unter einem bug, der spätestens mit der letzten version 6 beseitigt sein soll. hier kann also ein upgrade weiterhelfen.

2:
der panic handle wird durch den fehlerhaften prozess eines agenten oder aber den adminptask selbst verursacht. das war ja schon vermutet worden. meist friert der ganze server ein, so das leider auch die fehleranalyse nicht immer läuft.

der genaue ursprung ist selbst im analysestack nur sehr schwer auszumachen. in der regel kündigt sich der absturz aber dadurch an, dass der adminptask nach und nach immer mehr speicher an sich zieht, diesen fragmentiert und dann irgendwann hängen bleibt.
um den hang oder crash erstmal zu vermeiden, kann man rechtzeitig vorher neustarten.
am ehesten hilft es den task zu beobachten und zusätzlich an der konsole die debug parameter zu erweitern um soviele infos wie möglich zu sammeln. ferner datenbanken die sich irgendwie verdächtig halten genauer prüfen, gegebenenfalls wenn möglich mal für eine weile offline nehmen.

uns hat letzlich folgendes geholfen:

nachdem wir den adminptask, die admin4.nsf und das globale "adressbuches" als hauptverantwortlich identifiziert hatten, haben wir die admin4.nsf gelöscht und neuerstellt (harter einschnitt ... aber unumgänglich). dann die entsprechende andere datenbank lokal repliziert und die alte gelöscht. dann die üblichen reperaturmechanismen auf die replik angewandt und sie wieder zurückrepliziert. dann den server neugestartet. seitdem gabs keine probleme mehr.

beste grüsse

svha