Dus, wat is het grootste risico voor de uptime van uw datacenter? Uw personeel

Volgens het Uptime Institute zijn menselijke fouten de belangrijkste oorzaak van downtime.

Het Uptime Institute heeft het hele jaar door duizenden datacenterprofessionals ondervraagd over uitval en ze ontdekten dat de overgrote meerderheid van datacenterstoringen (ongeveer 70%) worden veroorzaakt door menselijke fouten. Bijna de helft van alle 1.300 respondenten had in de afgelopen drie jaar een significante of grotere storing. De gemiddelde kosten van een storing in de categorie ernstig waren meer dan $ 1.000.000 per gebeurtenis.

Zo kwam een tijdje geleden onverwachts een brandblusmiddel vrij tijdens een periodiek onderhoud, waardoor verschillende services van het Microsoft Azure-platform automatisch werden uitgeschakeld. Dit veroorzaakte problemen voor klanten in Noord-Europa die probeerden verbinding te maken met gehoste services.

De onvermijdelijke komst van AI in Data Center Infrastructure Management

Lees meer →

Natuurlijk heeft u uw datacenter beschermd tegen brand……

Lees meer →

Het probleem met onderhoud

Dit bevestigt onze ervaring dat storingen vaak optreden tijdens onderhoudswerkzaamheden. Onderhoud is een typische situatie, waarin mensen ingrijpen in geautomatiseerde systemen: een filter in de HVAC (heating, ventilation, airconditioning) moet worden vervangen of de UPS (uninterruptible power supply) moet worden verwijderd voor onderzoek. Dit zijn de momenten, waarop ‘menselijke fouten’ een aanzienlijke impact kunnen hebben op de systemen, die normaal gesproken volledig geautomatiseerd zijn.

In dit geval heeft iemand waarschijnlijk de verkeerde draden aangesloten of op een verkeerd knop gedrukt, waardoor het systeem het middel heeft vrijgelaten. Dit resulteerde in een reeks gebeurtenissen die begon met het automatisch uitschakelen van de luchtcirculatie. Dit is een logische stap, aangezien het systeem ervan uitgaat dat er brand is, waardoor het brandblussysteem wordt geactiveerd. Na het automatisch uitschakelen van de koude luchttoevoer was er een plotselinge stijging van de temperatuur in de ruimte waar de racks, servers, switches, etc. staan. Hierdoor zijn servers en opslagsystemen begonnen met afsluitprocedures, waardoor sommige Azure-services niet beschikbaar waren.

Het domino-effect

Dit was een typische domino-ramp waarbij een relatief onschuldige actie, het vrijkomen van een brandblusmiddel, wordt gevolgd door een reeks geautomatiseerde reacties die er uiteindelijk voor zorgen dat systemen worden uitgeschakeld.

Dit brengt ons bij die ene factor die moeilijk te automatiseren is: de menselijke factor. Mensen zijn nog steeds een onmisbaar onderdeel van de datacenter workflow. Apparatuur moet in de rekken worden geïnstalleerd, filters moeten worden schoongemaakt of vervangen, UPS’en hebben regelmatig onderhoud nodig, net als HVAC’s, generatoren, etc.

De datacenterbeheerder moet er rekening mee houden dat mensen eerder fouten maken dan geautomatiseerde systemen (maken zij überhaupt fouten?). Er bestaan procedures die het uitvalpercentage drastisch verlagen, zoals de juiste documentatie of gedetailleerde werkorders. Bij sommige kritische taken is het vereist dat er minimaal twee personen aan het werk zijn die elkaar in de gaten houden. Mensen zijn geweldig in creativiteit, maar ze hebben een slechte staat van dienst in repetitieve taken, zoals de meeste onderhoudstaken. Fouten maken is alleen maar menselijk.

Anticipatie op de menselijke factor

Het punt is, dat het management hiermee rekening moet houden en moet anticiperen op het feit dat mensen waarschijnlijk fouten maken. Naast correcte en gedetailleerde werkopdrachten, moeten ze ook hun geautomatiseerde systemen voorbereiden op menselijke fouten. Een goed DCIM-systeem (Datacenter Infrastructure Management) is bestand tegen onderhoudssituaties. Als de brandblusser in de bovenstaande situatie in de ‘onderhoudsmodus’ in de DCIM had gestaan, zou hij de luchtcirculatie niet hebben afgesloten toen het oplosmiddel vrijkwam. De dominoketen zou zijn gestopt en geen enkele klant van Azure zou het incident hebben opgemerkt.

In onze ervaring is het belangrijk dat dit soort intelligentie is ingebouwd in uw DCIM. Onderhoud is een geplande gebeurtenis en moet worden ingevoerd in de DCIM, zodat afwijkingen tijdens deze periode anders kunnen worden afgehandeld dan normaal.

Let’s discuss your data center requirements