Wenn ich den Screenshot alleine sehe fallen mir schon eine Handvoll Gründe ein, warum der Server lahmt:
- Hat die Maschine (mindestens) 4 CPU-Kerne? Zumindest ist so konfiguriert worden. Ein schnelles Hardware-RAID braucht diese Konfiguration ebenfalls, falls iSCSI verwendet wurde muß nachgemessen werden, was da verkraftet wird.
- Hat der Cluster wirklich 5 Mitglieder? Zumindest wurde der Clusterreplikator so konfiguriert. Ich glaube es aber eher nicht. Kostet ziemlich sinnlos I/O + Bandbreite.
- Bei einem so großzügig konfiguriertem Cluster sollte man annehmen, daß zumindest eine extra Cluster-Schnittstelle fürs Netz eingerichtet wurde. Der Screenshot sagt da was anderes. Alles über die gleiche Karte und damit gleicher I/O Bus. Das Netz selbst ist da mit Sicherheit eher weniger belastet.
- Großzügig wird auch an anderer Stelle mit der I/O umgegangen: sage und schreibe 8 gleichzeitige ausgehende Replikationen wurden da konfiguriert. Eingehende kommen gratis oben drauf, wenn ich mindestens bei den obigen Clusterkonfigurationen mal hochrechne wären das mindestens weitere 5 parallel stattfindende Synchronisationen. Nicht gerechnet connectierte Clients.
- Apropos Clients: wo sind die eigentlich in dem Screenshot? Da ist nicht einer zu sehen, laut der Konfiguration und dem was da angeblich so gebraucht wird müßten ja etliche IMAP/POP/SMTP oder Notes-Verbindungen von fleissigen Nutzern existieren. Tun sie aber nicht. Lediglich eine ausgehende Mail geht da grad einsam über die Leitung.
Von den Aufgaben der Tasks her wurde der Server (auf den ersten Blick anhand des Screenshots) wie ein HUB einer Hub+Spoke-Topologie konfiguriert.
Sollten hier wirklich die ganzen Client-Protokolle wie LDAP, HTTP, POP, IMAP gebraucht werden frage ich mich, wo ein paar andere Dinge abgeblieben sind wie z.B. weitere AdminP-Threads, Überwachungs-Aufgaben (z.B. Statistic Collector, iSpy etc. für die Sammlung der nötigen Überwachungsinformationen), zusätzliche AgentManager-Threads usw.
Im Screenshot sehe ich stattdessen den Statistics laufen, vermutlich hat den irgendwer in die Servertasks eingetragen ohne zu wissen, was der tut und kurz vor dem Screenshot den Server neu gestartet. Dafür spechen auch die fehlenden Nutzer und die Tätigkeit des Schedulers. Nebeneffekt des Statistics-Tasks, er schaltet mal eben auf allen (!) Datenbanken die komplette Aktivitätsprotokollierung ein, was ebenfalls nochmal eine Menge unnützer I/O bedeutet.
Unterm Strich scheint da etwas mehr Aufäumbedarf zu bestehen. Selbst ohne Perfmon kommt man durch Nachdenken auf das (hausgemachte) Performance-Problem: I/O
Carsten