Was ist die größte Gefahr für die Betriebszeit Ihres Rechenzentrums? Ihre Mitarbeiter.
Laut dem Uptime Institute ist menschliches Versagen die Hauptursache für Ausfallzeiten.
Das Uptime Institute hat im Lauf des Jahres Tausende Mitarbeiter von Rechenzentren zu Störungen befragt und festgestellt, dass die überwiegende Mehrheit der Ausfälle in Rechenzentren (etwa 70 %) durch menschliches Versagen verursacht wird. Bei fast der HÄLFTE der 1300 Befragten ist in den letzten drei Jahren eine erhebliche oder größere Störung aufgetreten. Die durchschnittlichen Kosten einer Störung der Kategorie Ernsthaft lagen bei mehr als 1 Million US-Dollar pro Ereignis.
Ein Beispiel: Vor einiger Zeit führte die unerwartete Freisetzung eines Feuerlöschmittels während einer Routinewartung dazu, dass mehrere Dienste auf der Microsoft-Plattform Azure automatisch abgeschaltet wurden. Kunden in Nordeuropa hatten dadurch Schwierigkeiten, eine Verbindung zu gehosteten Diensten herzustellen.
Probleme mit der Wartung
Dieser Vorfall unterstreicht auch unsere Erfahrung in Bezug darauf, dass Ausfälle häufig während einer Wartung auftreten. Die Wartung ist eine typische Situation, bei der Menschen in automatisierte Systeme eingreifen: So muss beispielsweise ein HLK-Filter ausgetauscht oder USVs müssen für eine genaue Kontrolle abgeschaltet werden. In einem solchen Moment kann sich „menschliches Versagen“ erheblich auf Systeme auswirken, die normalerweise vollautomatisch laufen.
Bezogen auf unser Beispiel hat der Mitarbeiter wahrscheinlich die falschen Drähte angeschlossen oder eine falsche Taste gedrückt, wodurch das Mittel freigesetzt wurde. Dies führte zu einer Kettenreaktion, bei der als Erstes die Luftzirkulation automatisch abgeschaltet wurde. Grundsätzlich ist das die logische Konsequenz, da das System von einem Feuer ausgeht, das die Brandunterdrückungsanlage ausgelöst hat. Entsprechend stieg nach der automatischen Abschaltung der Kaltluftzufuhr auch die Temperatur im White Space an. Dadurch wurden auf Servern und Speichersystemen Abschaltverfahren eingeleitet und schließlich waren einige Azure-Dienste nicht mehr erreichbar.
Der Dominoeffekt
In diesem typischen Domino-Desaster folgte auf einen relativ harmlosen Vorgang, wie die Freisetzung eines brandunterdrückenden Mittels, eine Reihe automatisierter Reaktionen und schließlich die Abschaltung der Systeme.
Und damit sind wir bei dem einen Faktor, der sich nur schwer automatisieren lässt: dem Faktor Mensch. Menschen sind immer noch ein unverzichtbarer Teil der Arbeitsabläufe in einem Rechenzentrum. Geräte müssen in den Racks installiert werden, Filter gereinigt oder ausgetauscht werden und USVs genau wie HVACs, Generatoren usw. benötigen eine regelmäßige Wartung.
Der Betreiber des Rechenzentrums muss berücksichtigen, dass Menschen eher Fehler machen als automatisierte Systeme (machen diese überhaupt Fehler?). Es gibt Verfahren, die die Ausfallrate deutlich senken, wie z. B. eine ordnungsgemäße Dokumentation oder ausführliche Arbeitsaufträge. Wirklich wichtige Aufgaben lassen sich durch das Vier-Augen-Prinzip abdecken. Menschen können kreative Höchstleistungen erbringen, aber ihre Erfolgsbilanz bei wiederkehrenden Aufgaben (und dazu gehören die meisten Wartungsaufgaben) fällt eher schlecht aus. Aber es gehört nun mal dazu, dass menschliches Handeln die Wahrscheinlichkeit eines Fehlers mit sich bringt
Die Vorwegnahme des menschlichen Faktors
Der springende Punkt ist, dass der Betreiber eines Rechenzentrums von Vorneherein einkalkulieren sollte, dass Menschen wahrscheinlich Fehler machen. In Folge dessen ist es wichtig, diese Tatsache zu berücksichtigen und von vorneherein einzukalkulieren, dass Menschen wahrscheinlich Fehler machen. Sie sollten also nicht nur auf korrekte und ausführliche Arbeitsaufträge achten, sondern auch ihre automatisierten Systeme auf menschliches Versagen vorbereiten. Ein gutes DCIM-System wird auch mit Wartungssituationen fertig. Wäre der Feuerlöscher in der obig erläuterten Situation im DCIM im „Wartungsmodus“ gewesen, hätte er die Luftzirkulation nicht abgeschaltet, als das Lösungsmittel freigesetzt wurde. Der Dominoeffekt wäre gar nicht erst entstanden und somit hätte kein Azure-Kunde den Vorfall bemerkt.
Unserer Erfahrung nach ist es wichtig, dass ein DCIM diese Art von Intelligenz vorweisen kann. Eine Wartung ist ein geplantes Ereignis und sollte im DCIM entsprechend klassifiziert werden, damit Anomalien während dieses Zeitraums anders als im Normalbetrieb behandelt werden.
Sprechen wir über die Anforderungen Ihres Rechenzentrums.