ATS_Blog_banner

Dès lors, quel est le plus grand risque concernant la disponibilité de votre data center ? Votre équipe

L’erreur humaine est la cause majeure des temps d’arrêt, selon l’Uptime Institute.

L’organisation Uptime Institute a interrogé des milliers de professionnels des centres de données tout au long de l’année. Le sujet concernait les pannes et l’institut a constaté que la grande majorité des dysfonctionnements dans les data centers (environ 70 %) sont causés par une erreur humaine. Près de la MOITIÉ des répondants ont eu à faire à une panne Significative ou majeure au cours des trois dernières années. Le coût moyen d’une panne dans la catégorie Sévère était supérieur à 1 000 000 $ par dysfonctionnement.

À titre d’exemple, il y a quelque temps, le déclenchement inattendu d’un agent d’extinction d’incendie au cours d’une maintenance périodique a entraîné l’arrêt automatique de plusieurs services de la plate-forme Microsoft Azure. Cela a causé des difficultés aux clients d’Europe du Nord qui tentaient de se connecter aux services hébergés.

L’arrivée inévitable de l’IA dans la gestion de l’infrastructure des centres de données

Lire plus →

ATS_DCIM_Data_Center_Protection_Icon_1

Bien sûr, votre data center est protégé contre le feu…

Lire plus

L’ennui avec la maintenance

Cela confirme notre expérience selon laquelle les pannes se produisent fréquemment au cours des activités d’entretien. La maintenance est une opération typique où les humains interviennent dans des systèmes automatisés : un filtre à remplacer dans le système HVAC-R ou une ASI qui doit être démonté pour révision. Ce sont les moments où « l’erreur humaine » peut avoir un impact significatif sur les systèmes qui sont normalement entièrement automatisés.

Dans ce cas-ci, quelqu’un avait probablement branché les mauvais fils ou appuyé sur un mauvais bouton obligeant le système à enclencher un agent. Cela se déclinait alors par une chaîne d’événements qui ont commencé par l’arrêt automatique de la circulation d’air. Il s’agit d’une étape logique car le système supposait qu’il y avait un incendie, ce qui provoquait le déclenchement du système d’extinction d’incendie. Suite à l’arrêt automatique de l’alimentation en air froid, il y a eu une augmentation soudaine de la température dans la salle blanche. Cela a amené les serveurs et les systèmes de stockage à lancer des procédures d’arrêt, ce qui a entraîné l’indisponibilité de certains des services Azure.

L’effet Domino

Il s’agissait d’une catastrophe en cascade par effet domino typique où une action relativement innocente, le déclenchement d’un agent d’extinction d’incendie, est suivie d’un ensemble de réactions automatisées qui provoquent finalement la mise hors-service des systèmes.

Cela nous amène à ce facteur difficile à automatiser : le facteur humain. Les humains sont pourtant toujours un élément indispensable du flux de travail du centre de données. Les équipements doivent être installés dans les racks, les filtres doivent être nettoyés ou remplacés, les ASI nécessitent un entretien régulier, tout comme les systèmes HVAC-R/CVC, les générateurs, etc.

Le gestionnaire d’un centre de données doit tenir compte du fait que les humains sont plus susceptibles de faire des erreurs que les systèmes automatisés (font-ils même parfois des erreurs ?). Il existe des procédures qui réduisent considérablement le taux d’échec, comme une documentation appropriée ou des bons de travail détaillés. Pour certaines tâches critiques, il est requis d’avoir au moins deux personnes au travail, se surveillant mutuellement. Le personnel est très créatif, mais il a une mauvaise réputation en termes de tâches répétitives comme pour la plupart des travaux de maintenance. Il est humain de faire des erreurs.

Anticiper le facteur humain

Le fait est que le management devrait prendre cela en considération et anticiper le fait que les humains sont susceptibles de faire des erreurs. En plus d’avoir des bons de travail corrects et détaillés, il devrait également préparer les systèmes automatisés à être impactés par des erreurs humaines. Un système DCIM approprié peut faire face aux situations de maintenance. Si l’extincteur d’incendie dans la situation ci-dessus avait été placé en « mode maintenance » dans le DCIM, il n’aurait pas mis la ventilation hors circuit lorsque le solvant avait été libéré. L’effet domino aurait été arrêté et aucun client Azure n’aurait remarqué l’incident.

D’après notre expérience, il est important que votre DCIM intègre ce type d’intelligence. La maintenance est un événement planifié qui devrait être intégrée dans le DCIM afin que les anomalies pendant cette période puissent être traitées différemment par rapport au fonctionnement normal.

Abordons les exigences de votre centre de données.

[contact-form-7 id= »87593″ title= »Contact Form – Blog Post »]