|
|
Verfügbarkeitsmessung
Verfügbarkeit unterliegt auch der Weisheit „Was man nicht messen kann, kann man auch nicht steuern.“ Wenn man nicht weiß, wo die Schwachpunkte eines Systems zu finden sind, dann wird man diese auch nicht ausmerzen können. Ohne Messung der Verfügbarkeit kann man auch nicht bewerten, inwiefern die erstellten Verfügbarkeitsprognosen erfüllt wurden und ob die der Prognose zu Grunde liegenden Modelle und Parameter passend gewählt wurden oder neu angepasst werden müssen. Halten wir also fest
- Die Messung gibt Aufschluss über die tatsächlichen Fehlerquellen und ermöglicht punktuelle Korrekturen
- Die Messung bestätigt oder widerlegt ein Zuverlässigkeitsmodell
- Die Messung überprüft objektiv den Erfüllungsgrad eines vereinbarten Verfügbarkeit-Levels
- Die Messung ist selber empirische Quelle für Ausfall- und Verfügbarkeitsdaten und damit Ausgangspunkt für neue Prognosen
|
Verfügbarkeitsdaten als Nebenprodukt anderer IT-Services
Allerdings ist die Realisierung einer aussagekräftigen Verfügbarkeitsmessung keine leichte Aufgabe. Nach den Erfahrungen des Autors wird selbst im professionellen IT-Umfeld grösserer Unternehmen der Aufwand gescheut, ein solchens Messprogramm zu implementieren. Wenn überhaupt Verfügbarkeitsdaten erhoben werden, dann als Nebenprodukt des Monitorings (Überwachung) oder der Störungsbearbeitung im Rahmen des First und Second Level Supports.
Ein typisches Monitoring ist z.B. die Überwachung von Servern über das Netzwerk von einem zentralen Monitoring-Server aus, der in regelmässigen Abständen (poll time) die Server (seine endpoints) "anpingt" (abgeleitet vom ping-Befehl), um so ein positives Lebenszeichen zu bekommen.
Der Monitoring Server erhält von den "grünen" Servern eine Antwort auf den abgesetzten Ping-Befehl, vom "roten" Server nicht. Entweder ist dieser tatsächlich ausgefallen (und damit "nicht verfügbar") oder die Netzverbindung zwischen Monitor und Server ist gestört.
Bleibt die Antwort auf den ping-Befehl aus, so wird dieses als Störungsevent gemeldet. Zeichnet man diese events in einer Log-Datei auf, so kann man diese später auswerten und Rückschlüsse auf die Verfügbarkeit der Server ziehen. Die Erfahrung lehrt jedoch, dass man auf diese Methode mehr über die Zuverlässigkeits der zwischengeschalteten Netzkomponenten erfährt, als über die der Server, da ja jede Störung im Netzwerk ebenfalls zu einem Störungsevent führt. Ein anderer Weg, Störungsdaten zu bekommen besteht oft darin, von den Störungsbearbeitern in den Störungsberichten die festgestelllten Downtimes (time to repair) protokollieren zu lassen. Die Daten, die man hier erhält, hängen aber von der subjektiven Beurteilung der Störung seitens des Bearbeiters ab: Kennt er den Ausfallzeitpunkt genau? Veranschlagt er die Downtime ehrlich? etc. Beide Methoden haben offensichtliche Nachteile, werden aber oft aus pragmatischen Gründen gewählt. Denn eine eigens aufgesetzte Verfügbarkeitsmessung bringt hohen Aufwand mit sich und kann z.B. das Monitoring nicht ersetzen, weil diese in der Regel keinen Mechanismus zur Echtzeitalarmierung enthält. Die Daten werden stattdessen über einen Zeitraum gesammelt und erst später ausgewertet.
|
|
|