Durchgedrehter replica task unter AIX

  • Hallo,


    wir haben seit letztem Wochenende die folgende Systemkonfiguration und schon tauchen die erste Merkwürdigkeiten auf:


    2x IBM p690 (2 Proz. 3 GB Ram)
    AIX 5.2
    Domino 6.5.1


    Die Server sind in zwei Verschiedenen Notes Domains und replizieren alle 10 MInuten eine gemeinsame Anwendung.


    Verbindungsdokument auf Server A


    Nach einiger Zeit fing der eine Server (A) plötzlich an, wahllos zu versuchen irgendwelche beliebigen Datenbanken mit dem anderen Server (B) zu replizieren.


    Scheinbar lag das Problem im replica Task von Server B, da remote User die ihre Mail-DB replizieren wollten plötzlich auch versucht haben wahllos irgendwelche anderen Datenbanken zu replizieren.


    Jedenfalls hatte das Ganze dann die Wirkung einer DoS Attacke, da nach einer Weile alle Sessions am Server belegt waren und niemand mehr auf das System zugreifen konnte.


    Als niemand mehr auf das System zugreifen konnte habe ich einen nsd laufen lassen der mir für eine der drei Instanzen des Replikators die folgende seltsame Meldung gebracht hat:


    ###################################
    ## thread 2/3 :: replica pid=430168, k-id=1405125 , pthr-id=258
    ## stack :: k-state=run, stk max-size=98304, cur-size=564
    ###################################
    iosl.select(??, ??, ??, ??, ??) at 0xd0268bbc
    unix_usleep(??) at 0xd0e1727c
    TimerTask(??) at 0xd1dcbeb0
    ./tmpfiles.397360.scr: 81: warning: Thread is in kernel mode, not all registers can be accessed.


    Kann sich da irgendjemand was drunter vorstellen?


    Eine Suche nach "Thread is in kernel mode" im Notes DW hat jedenfalls kein Ergebnis gebracht.


    Außerdem wäre mir generell daran gelegen, andere Domino Admins zu finden deren Systeme ebenfalls auf AIX laufen.

  • so ganz versteh ich das nicht...wenn benutzer ihre maildb oder auch andere dbs replizieren, dann machen sie das clientseitig. das ist für dich serverseitig nicht zu erkennen...du siehst nur das der benutzer auf dem server ist....
    server a hat wahllos? dbs repliziert? wie sieht denn dein verbindungsdokument aus...hast du da bloß einige dbs angegeben oder soll er alle dbs mit server b replizieren?
    wie gesagt...ich kann das problem laut deiner beschreibung nicht nachvollziehen...
    wieviele sessions waren denn nachher auf den servern?
    waren es benutzer oder die server selbst?


    wir haben früher auch auf p/690 betrieben und nie solche probleme gehabt...

  • Hallo,


    ist auch nicht so einfach zu erklären das Ganze.


    Also: Zwei Server (A und B) in zwei Domänen (A und B).


    Server A hat drei Verbindungsdokumente zu Server B.
    Eins nur für Mailrouting, ein weiteres zur Replikation von insgesamt drei Datenbanken alle zehn Minuten.
    Und ein weiteres zur Replikation von drei anderen Datenbanken alle 60 Minuten.


    Alles läuft wunderbar bis Gestern Abend plötzlich Server A versucht völlig andere Datenbanken die in keinem Verbindungsdokument genannt werden (ein Verbindungsdokument das alles replizieren will gibt es nicht) mit Server B zu replizieren. Von den Datenbanken die Server A versucht zu replizieren hält er selbst keine Repliken!


    Auszug aus dem Log von Server A:
    Replicator was unable to initialize BS_Frankfurt/BS_Card_Service_GmbH/DE mail07\0029.nsf (from ?): You are not authorized to perform that operation


    Gegenstück aus dem Log von Server B
    09.11.2004 18:51:21 ATTEMPT TO ACCESS DATABASE mail07/0029.nsf by mail01/ffm01/aps was denied


    Das Ganze passiert ab 18:41 Uhr in schönster Regelmässigkeit alle 10 Minuten. Beim ersten Mal nur einige wenige Versuche, danach jedesmal mehr.


    Parallel dazu taucht m Log von Server B noch massiv folgende Meldung auf:
    09.11.2004 18:41:25 Entry already in index


    Da um diese Zeit auf dem System nicht viel los ist, fällt das Problem noch keinem auf.


    Heute Morgen gegen 8:15 Uhr kommen einige Außendienstler aus ihren Betten gekrochen, werfen ihr Notebook an und wollen Ihre Mail-DBs auf Server B replizieren.


    Dann passiert bei denen genau das Gleiche. Der Client versucht plötzlich wie wild irgendwelche Datenbanken zu replizieren von denen er gewiss keine lokale Replik hat.


    Auszug aus dem Log des Clients:
    Der Replikator konnte BS_Frankfurt/BS_Card_Service_GmbH/DE mail05\3010.nsf (von ?) nicht initialisieren: Sie sind zur Durchführung dieser Operation nicht berechtigt


    Das ging so weit dass mehrere Remote Clients bis zu 10 mal pro Sekunde versucht haben irgendwelche Datenbanken zu replizieren. Bis dann gegen 9:25 Uhr der Server die Grätsche gemacht hat.


    Allerdings hat sich gezeigt, dass der Server durchaus noch gelaufen ist und nur nicht mehr erreichbar war.
    Im nsd waren dann unter "Network Connections" insgesamt 1498 Sessions im Status Closed-Wait aufgelistet.


    Da ich dann den Replikator von Server B in Verdacht hatte hab ich im nsd-Dump nach den Einträgen vom Replica Task gesucht und die ominöse Meldung gefunden die ich eingangs gepostet hatte.


    Kannst du dir daraus irgendwas zusammenreimen.


    Nach dem Server Neustart war es dann übrigens weg.

  • Hi,


    hast Du Dir mal Deine Richtliniendokumente angeschaut? Von dort aus kann man auch Replikationen initiieren.

    Für jedes Problem gibt es eine einfache Lösung, die es noch schlimmer macht.

  • Richtliniendokumente gibts noch keine, das Adressbuch hat noch 5er Gestaltung. Wir wollen es erst auf die 6er Gestaltung heben wenn wir alle Clients upgedatet haben.