Home
Einleitung
Begriffsdefinitionen
Die Verfügbarkeit A
Die Zuverlässigkeit R
Einfache Beispiele
R, A und die MTBF
Warum fallen Systeme aus?
Verfügbarkeitsklassen
Wahrscheinlichkeit und Prognose
Messung und Prognose
R als Wahrscheinlichkeit
Mathematischer Exkurs
Die zeitabhängige Ausfallrate
A als Wahrscheinlichkeit
Versicherung und Garantie
Die zeitliche Bezugsbasis
Alle Grössen im Überblick
Risikoanalyse
Verfügbarkeitsmodellierung
Das Schichtenmodell
Eine fiktive Anwendung
Die Blockdiagrammanalyse
Die Fehlerbaumanalyse
Die Monte-Carlo-Methode
Pauschal-Modelle
Gruppen und Mittelwerte
Verfügbarkeitsmessung
Halbherzige Ansätze
Gezielte Anforderungen
Gezielte Methoden
Bewertung
Quellen
Links&Literatur
Kontakt
Dr. Christoph Glowatz
Hilden

Verfügbarkeitsmessung

Verfügbarkeit unterliegt auch der Weisheit „Was man nicht messen kann, kann man auch nicht steuern.“ Wenn man nicht weiß, wo die Schwachpunkte eines Systems zu finden sind, dann wird man diese auch nicht ausmerzen können. Ohne Messung der Verfügbarkeit kann man auch nicht bewerten, inwiefern die erstellten Verfügbarkeitsprognosen erfüllt wurden und ob die der Prognose zu Grunde liegenden Modelle und Parameter passend gewählt wurden oder neu angepasst werden müssen. Halten wir also fest
  • Die Messung gibt Aufschluss über die tatsächlichen Fehlerquellen und ermöglicht punktuelle Korrekturen
  • Die Messung bestätigt oder widerlegt ein Zuverlässigkeitsmodell
  • Die Messung überprüft objektiv den Erfüllungsgrad eines vereinbarten Verfügbarkeit-Levels
  • Die Messung ist selber empirische Quelle für Ausfall- und Verfügbarkeitsdaten und damit Ausgangspunkt für neue Prognosen

Verfügbarkeitsdaten als Nebenprodukt anderer IT-Services

Allerdings ist die Realisierung einer aussagekräftigen Verfügbarkeitsmessung keine leichte Aufgabe. Nach den Erfahrungen des Autors wird selbst im professionellen IT-Umfeld grösserer Unternehmen der Aufwand gescheut, ein solchens Messprogramm zu implementieren. Wenn überhaupt Verfügbarkeitsdaten erhoben werden, dann als Nebenprodukt des Monitorings (Überwachung) oder der Störungsbearbeitung im Rahmen des First und Second Level Supports. Ein typisches Monitoring ist z.B. die Überwachung von Servern über das Netzwerk von einem zentralen Monitoring-Server aus, der in regelmässigen Abständen (poll time) die Server (seine endpoints) "anpingt" (abgeleitet vom ping-Befehl), um so ein positives Lebenszeichen zu bekommen.


Der Monitoring Server erhält von den "grünen" Servern eine Antwort auf den abgesetzten Ping-Befehl, vom "roten" Server nicht. Entweder ist dieser tatsächlich ausgefallen (und damit "nicht verfügbar") oder die Netzverbindung zwischen Monitor und Server ist gestört.

Bleibt die Antwort auf den ping-Befehl aus, so wird dieses als Störungsevent gemeldet. Zeichnet man diese events in einer Log-Datei auf, so kann man diese später auswerten und Rückschlüsse auf die Verfügbarkeit der Server ziehen. Die Erfahrung lehrt jedoch, dass man auf diese Methode mehr über die Zuverlässigkeits der zwischengeschalteten Netzkomponenten erfährt, als über die der Server, da ja jede Störung im Netzwerk ebenfalls zu einem Störungsevent führt. Ein anderer Weg, Störungsdaten zu bekommen besteht oft darin, von den Störungsbearbeitern in den Störungsberichten die festgestelllten Downtimes (time to repair) protokollieren zu lassen. Die Daten, die man hier erhält, hängen aber von der subjektiven Beurteilung der Störung seitens des Bearbeiters ab: Kennt er den Ausfallzeitpunkt genau? Veranschlagt er die Downtime ehrlich? etc. Beide Methoden haben offensichtliche Nachteile, werden aber oft aus pragmatischen Gründen gewählt. Denn eine eigens aufgesetzte Verfügbarkeitsmessung bringt hohen Aufwand mit sich und kann z.B. das Monitoring nicht ersetzen, weil diese in der Regel keinen Mechanismus zur Echtzeitalarmierung enthält. Die Daten werden stattdessen über einen Zeitraum gesammelt und erst später ausgewertet.