Cosa mette maggiormente a rischio l’operatività del data center? Lo staff.
Stando all’Uptime Institute, l’errore umano è la causa principale di eventuali interruzioni.
L’Uptime Institute ha sottoposto migliaia di professionisti dei data center a un’indagine di un anno sulle interruzioni: ne è emerso che la stragrande maggioranza dei blackout dei data center (circa il 70%) è dovuta a errori umani. Quasi LA METÀ dei 1.300 partecipanti si è ritrovata a gestire un’interruzione importante o più seria negli ultimi tre anni. In media, un’interruzione ritenuta grave è costata più di un milione di dollari.
Per esempio, qualche tempo fa, il rilascio accidentale di un agente estinguente durante la manutenzione periodica ha causato l’interruzione automatica di molti dei servizi della piattaforma Microsoft Azure; i clienti in Europa settentrionale che tentavano di connettersi a tali servizi hanno avuto non poche difficoltà.
Il problema della manutenzione
Questo episodio conferma quanto visto coi nostri occhi, ossia che spesso gli incidenti si verificano durante le manutenzioni. La manutenzione è il classico esempio di un intervento umano in un sistema automatizzato, ad esempio sostituire un filtro dell’impianto HVAC o rimuovere il gruppo di continuità per eseguire delle analisi. Sono momenti in cui l’errore umano può avere forti ricadute su sistemi che, di norma, sono interamente automatizzati.
Nell’esempio citato, è probabile che siano stati connessi i fili sbagliati o qualcuno abbia premuto accidentalmente un pulsante che ha causato il rilascio dell’agente. Di conseguenza, però, si è innescata una sfilza di azioni che è iniziata con lo spegnimento automatico dell’impianto per il ricambio dell’aria. È una scelta logica: il sistema attiva l’impianto antincendio poiché presuppone si sia verificato un incendio. Tuttavia, l’interruzione automatica dell’aria fredda in ingresso ha causato un aumento improvviso della temperatura nel white space che, a sua volta, ha innescato l’avvio delle procedure di spegnimento di server e sistemi di archiviazione, rendendo quindi impossibile accedere ad alcuni dei servizi Azure.
L’effetto domino
Si è trattato del classico effetto domino disastroso dove a un’azione relativamente innocua, ossia il rilascio di un agente estinguente, sono susseguite varie risposte automatiche che, in ultima analisi, hanno causato lo spegnimento dei sistemi.
Il che ci porta a un fattore difficile da automatizzare: quello umano. Gli esseri umani rimangono un elemento indispensabile del flusso di lavoro dei data center poiché servono per installare le apparecchiature sui rack, pulire o sostituire i filtri, eseguire periodicamente la manutenzione del gruppo di continuità, dell’impianto HVAC, dei generatori, ecc.
Il responsabile del data center deve tenere in considerazione che gli esseri umani sono più propensi agli errori dei sistemi automatizzati (che, detta come va detta, sono praticamente infallibili). Esistono procedure che riducono drasticamente il tasso d’errore, ad esempio utilizzare la documentazione giusta od ordini di lavoro dettagliati. Per alcune operazioni fondamentali occorrono almeno due persone che si monitorino a vicenda, perché se la creatività è qualcosa che agli esseri umani viene naturale, lo stesso non si può dire dei compiti ripetitivi, quali le manutenzioni. Del resto: errare humanum est.
Anticipare il fattore umano
Il punto è che la direzione deve tenerne conto e anticipare la possibilità di errori umani. Oltre a garantire ordini di lavoro corretti e dettagliati, deve assicurarsi che i sistemi automatizzati siano a prova di errore umano. Una buona DCIM riesce a gestire la manutenzione senza problemi. Se l’impianto antincendio dell’esempio sopracitato fosse stato in “modalità manutenzione” nella DCIM, non avrebbe interrotto il ricircolo d’aria al rilascio del solvente, arrestando quindi l’effetto domino senza che i clienti di Azure se ne accorgessero.
Sappiamo per esperienza che è importante affidarsi a una DCIM con questo tipo di intelligenza integrata. La manutenzione è un evento programmato da inserire nella DCIM per gestire eventuali anomalie in modo diverso da quanto si farebbe normalmente.
Parliamo dei vostri requisiti per un data center.
[contact-form-7 id=”87593″ title=”Contact Form – Blog Post”]