ATS_Blog_banner

Entonces, ¿cuál es el mayor riesgo para el tiempo de inactividad de tu Data Center? Tu personal

El error humano es la principal causa del tiempo de inactividad, según el Uptime Institute.

El Uptime Institute encuestó a miles de profesionales de centros de datos a lo largo del año sobre las interrupciones y descubrió que la gran mayoría de los fallos de los centros de datos (alrededor del 70%) están causados por errores humanos. Casi la MITAD de los 1300 encuestados tuvieron una interrupción Significativa o mayor en los últimos tres años. El coste medio de una interrupción de la categoría Grave fue superior a 1.000.000 de dólares por evento.

Como ejemplo, hace un tiempo el lanzamiento inesperado de un agente de extinción de incendios durante el mantenimiento periódico provocó que varios servicios de la plataforma de Microsoft Azure se apagaran automáticamente. Esto causó dificultades a los clientes del norte de Europa que intentaban conectarse a los servicios alojados.

La inevitable llegada de la IA a la Gestión de Infraestructuras de Centros de Datos

Leer más →

ATS_DCIM_Data_Center_Protection_Icon_1

Seguro que tienes tu Data Center protegido contra incendios…

Leer más

El Problema con el Mantenimiento

Esto corrobora nuestra experiencia de que las interrupciones suelen producirse durante las actividades de mantenimiento. El mantenimiento es una situación típica en la que el ser humano interviene en los sistemas automatizados: un filtro en el sistema de climatización necesita ser cambiado o desmontar los UPSs para revisarlos. Estos son los momentos en los que el «error humano» puede tener un impacto significativo en los sistemas que normalmente están totalmente automatizados.

En este caso, probablemente alguien conectó los cables equivocados o pulsó un botón erróneo que hizo que el sistema liberara su agente. Esto dio lugar a una cadena de eventos que comenzaron con el cierre automático de la circulación de aire. Este es un paso lógico, ya que el sistema asume que hay un incendio que hace que el sistema de extinción de incendios se dispare. Tras el apagado automático del suministro de aire frío se produjo un aumento repentino de la temperatura en el espacio blanco. Esto provocó que los servidores y los sistemas de almacenamiento iniciaran los procedimientos de apagado, lo que provocó la falta de disponibilidad de algunos de los servicios de Azure.

El efecto Dominó

Se trató de una típica catástrofe en forma de dominó en la que una acción relativamente inocente, la liberación de un agente de extinción de incendios, es seguida por un conjunto de respuestas automatizadas que finalmente provocan que los sistemas se apaguen.

Esto nos lleva a este factor difícil de automatizar: el factor humano. El ser humano sigue siendo una parte indispensable del flujo de trabajo del Data Center. El equipo debe ser instalado en los bastidores, los filtros deben limpiarse o sustituirse, los UPS requieren un mantenimiento regular, al igual que los sistemas de climatización, generadores, etc.

El administrador del Data Center debe tener en cuenta que los seres humanos son más propensos a cometer errores que los sistemas automatizados (¿cometen algún error?). Existen procedimientos que disminuyen drásticamente la tasa de errores, como la documentación adecuada o las órdenes de trabajo detalladas. En algunas tareas críticas es necesario tener al menos dos personas en el trabajo, vigilándose mutuamente. Las personas son excelentes en creatividad, pero tienen un historial pobre en tareas repetitivas como la mayoría de los trabajos de mantenimiento. Es humano cometer errores.

Anticiparse al Factor Humano

La dirección debería tener esto en cuenta y anticiparse al hecho de que los humanos pueden cometer errores. Además de tener órdenes de trabajo correctas y detalladas, también deberían tener sus sistemas automatizados preparados para los errores humanos. Un sistema DCIM adecuado puede hacer frente a las situaciones de mantenimiento. Si el extintor de incendios en la situación anterior hubiera estado en «modo de mantenimiento» en el DCIM, no habría cerrado la circulación de aire cuando se liberó el disolvente. El dominó se habría detenido y ningún cliente de Azure se habría dado cuenta del incidente.

Según nuestra experiencia, es importante que tu DCIM tenga este tipo de inteligencia incorporada. El mantenimiento es una actividad planificada y debe introducirse en el DCIM para que las anomalías durante este periodo puedan tratarse de forma diferente al funcionamiento normal.

Hablemos de los requisitos de tu Data Center.

[contact-form-7 id=»87593″ title=»Contact Form – Blog Post»]