Co nejvíce ohrožuje dostupnost prostředků vašeho datového centra? Váš personál
Podle Uptime Institute je hlavní příčinou prostojů lidská chyba.
Organizace Uptime Institute prováděla po celý rok průzkum mezi tisíci profesionálů z datových center ohledně výpadků a zjistila, že velká většina selhání (kolem 70 %) je způsobena lidskou chybou. Téměř POLOVINA ze všech 1300 respondentů se v uplynulých třech letech setkala s významným nebo větším výpadkem. Průměrné náklady na výpadek v kategorii závažné byly větší než 1 000 000 USD na jednu událost.
Například před nějakou dobou došlo během pravidelné údržby k nečekanému vypuštění hasicí látky, což způsobilo automatické vypnutí několika služeb platformy Microsoft Azure. V důsledku toho měli zákazníci v severní Evropě potíže s připojením k hostovaným službám.
Problém s údržbou
Tato událost potvrzuje naše zkušenosti s tím, že k výpadkům často dochází během údržby. Údržba je typická situace, ve které lidé zasahují do automatizovaných systémů; například je třeba vyměnit filtr v klimatizačním systému nebo odstavit UPS za účelem kontroly. Jedná se o okamžiky, kdy může mít „lidská chyba“ vážný dopad na systémy, které jsou normálně plně automatizované.
V uvedeném případě nejspíš někdo připojil nesprávné vodiče nebo stiskl nesprávné tlačítko, což způsobilo vypuštění hasicí látky ze systému. To vedlo ke sledu událostí, který začal automatickým vypnutím cirkulace vzduchu. Je to logický krok, protože systém předpokládá, že vypukl požár, který způsobil aktivaci hasicího systému. Po automatickém vypnutí přívodu studeného vzduchu došlo k náhlému vzrůstu teploty v bílém místě. V důsledku toho se začaly vypínat servery a úložiště, což mělo za následek nedostupnost některých služeb Azure.
Dominový efekt
Jednalo se o typickou katastrofu s dominovým efektem, kde po poměrně neškodném kroku, jakým bylo vypuštění hasicí látky, následovala řada automatizovaných reakcí, které nakonec způsobily vypnutí systémů.
Přivádí nás to k jednomu faktoru, který lze těžko automatizovat: k lidskému faktoru. Lidé jsou stále nepostradatelnou součástí pracovních postupů v datových centrech. Je zapotřebí instalovat zařízení do racků, čistit nebo měnit filtry a UPS vyžadují pravidelnou údržbu, stejně jako klimatizace, generátory atd.
TVedoucí datového centra musí brát v úvahu, že lidé jsou mnohem náchylnější k chybám než automatizované systémy (dělají vůbec nějaké chyby?). Existují postupy, které výrazně snižují chybovost, například náležitá dokumentace nebo podrobné pracovní příkazy. V případě některých kritických úkonů je nutné vykonávat práci nejméně ve dvou osobách, které se navzájem sledují. Lidé jsou skvělí v kreativitě, ale mají slabé výsledky, pokud jde o opakované úkony, mezi něž patří většina prací v rámci údržby. Chybovat je lidské.
Předvídání lidského faktoru
TJde o to, že vedení by s tím mělo počítat a předvídat skutečnost, že lidé mají sklon chybovat. Kromě vydávání správných a podrobných pracovních příkazů je také nutné zajistit, aby byly automatizované systémy připravené na lidské chyby. Správný systém DCIM si dokáže poradit se situacemi týkajícími se údržby. Kdyby se hasicí systém z výše popsané situace přepnul v systému DCIM do „režimu údržby“, při uvolnění hasicí látky by se nevyřadila cirkulace vzduchu. Dominový efekt by se zastavil a žádný uživatel služeb Azure by tento incident nezaznamenal.
Podle našich zkušeností je důležité, aby byl ve vašem systému DCIM zabudován tento druh inteligence. Údržba je plánovaná událost a měla by být zaznamenána v systému DCIM, aby bylo možné řešit anomálie během této doby jinak než při normálním provozu.
Pojďme probrat vaše požadavky na datové centrum.
[contact-form-7 id=“87593″ title=“Contact Form – Blog Post“]