ATS_Blog_banner

Peki, Veri Merkezi Çalışma Süreniz için En Büyük Risk Nedir? Ekibiniz.

Uptime Institute’a göre, insan hataları kesinti sürelerindeki ana nedendir.

The Uptime Institute bir yıl boyunca binlerce veri merkezi uzmanını kesintiler konusunda araştırdı ve veri merkezi arızalarının büyük çoğunluğunun (yaklaşık %70) insan hatasından kaynaklandığını ortaya çıkardılar. Ankete katılan 1300 kişinin neredeyse YARISI, son üç yılda ciddi veya daha kötü bir kesinti tecrübe etmiştir. Şiddetli bir kesintinin ortalama maliyeti ise olay başına 1 Milyon USD değerinden fazladır.

Örneğin, bir süre önce periyodik bakım sırasında bir yangın söndürme aracının beklenmedik şekilde çalışmasıyla, Microsoft Azure platformunun çeşitli hizmetleri otomatik olarak durdurulmuştu. Bu durum, Kuzey Avrupa bünyesindeki hizmetlere bağlanmaya çalışan müşterilere zor anlar yaşatmıştı.

Veri Merkezi Altyapı Yönetiminde Kaçınılmaz Son: Yapay Zeka

Read Devamı →

ATS_DCIM_Data_Center_Protection_Icon_1

Veri Merkezinizi Yangınlara Karşı Koruyorsunuzdur…

Read Devamı

Bakım Sorunları

Kesintiler genellikle bakım faaliyetleri sırasında meydana gelir. Bakım, insanların otomatik sistemlere müdahale ettiği tipik bir durumdur. Örneğin; HVAC’deki bir filtrenin değiştirilmesi veya UPS’nin inceleme için kaldırılması gerekir. İşte bu tür durumlar, “insan hatasının” normalde tamamen otomatik olan sistemler üzerinde önemli bir etkiye sahip olabileceği anlardır.

Az önceki Azure örneğinde, muhtemelen biri kabloları yanlış bağlamıştır veya sistemin kendini korumaya almasına neden olacak yanlış bir düğmeye basmıştır. Bu, hava sirkülasyonunun otomatik olarak kapatılmasıyla başlayan bir olaylar zincirine sebep olmuştur. Sistem, yangın söndürme sisteminin devreye girmesini sağlamıştır. Bir yangın olduğunu varsaydığı için aslında bu mantıklı bir adımdır. Sonrasında soğuk hava beslemesinin otomatik olarak kapatılmasıyla beyaz alan içerisindeki sıcaklıkta ani bir artış yaşanmıştır. Bu da, sunucuların ve depolama sistemlerinin, bazı Azure hizmetlerinin kullanılamamasına neden olan kapatma prosedürlerini harekete geçirmiştir.

Domino Etkisi

Bu durum aslında tipik bir domino felaketiydi. Yangın söndürme sisteminin çalışmasıyla başlayan ve en nihayetinde tüm sistemin kapanmasına neden olan bir dizi olayın sonucuydu.

En zor olan ise insan faktörünü otomatik hale getirmektir. İnsanlar, veri merkezi iş akışının hâlâ vazgeçilmez bir parçasıdır. Ekipmanların raflara yüklenmesi, filtrelerin temizlenmesi veya değiştirilmesi, UPS, HVAC, jeneratör vb. ekipmanların düzenli bakımları hep insanlar tarafından yapılmaktadır.

Veri merkezi yöneticileri, insanların, otomatik sistemlere göre hata yapma olasılığının daha yüksek olduğunu hesaba katmalıdır (Otomatik sistemler hata yapar mı, o da tartışılır?). Uygun dokümantasyon ve ayrıntılı iş emirleri uygulanarak bu durum önemli ölçüde iyileştirebilir. Özellikle kritik görevlerde, en az iki kişinin birbirine göz kulak olması gerekir. İnsanlar yaratıcılıkta harikadır; ancak çoğu bakım işi gibi tekrarlayan görevlerde kötü bir performansları vardır. Hata yapmak sadece insana mahsustur.

İnsan Faktörü

Yönetim seviyesinin bu durumu dikkate alması ve insanların hata yapma olasılığının yüksek olduğu gerçeğini kabullenmeleri önemlidir. Doğru ve ayrıntılı iş emirlerine sahip olmanın yanı sıra, otomatik sistemlerini insan hatalarını önleyecek şekilde kurgulamaları da gerekir. Uygun bir DCIM sistemi, bakım durumlarıyla baş edebilir. Azure örneğinde eğer yangın söndürücü DCIM’de “bakım modunda” olsaydı, hava sirkülasyonunu kapatılmazdı. Bu sayede Domino oluşmadan ve hiçbir Azure müşterisi olayı fark etmeden konu kapanmış olacaktı.

DCIM sisteminizin bu tür bir zekaya sahip olması önemlidir. Bakım planlı bir olaydır ve DCIM sistemine bu şekilde girilmelidir. Böylece bu süreçteki sorunlar normal çalışmadan farklı şekilde ele alınabilir.

Veri Merkezi gereksinimlerinizi tartışalım.

[contact-form-7 id=”87593″ title=”Contact Form – Blog Post”]