Octave Klaba, szef OVH, tłumaczy jak doszło do awarii, która odcięła od sieci pół Europy
Octave Klaba, szef OVH, tłumaczy jak doszło do awarii, która odcięła od sieci pół Europy mat. prasowe
Reklama.
Pierwsze doniesienia mówiły o awarii w dostawie prądu, która odcięła serwery OVH od zasilania. Okazało się jednak, że za odcięcie od sieci milionów stron odpowiada… błąd w oprogramowaniu.
– W czwartek, o 8:01 nagle wszystkie łącza 100G, z 44 dostępnych, utraciły połączenie. Biorąc pod uwagę system redundancji, który mamy wdrożony, przyczyną problemu nie mogło być przecięcie wszystkich 6 światłowodów jednocześnie. (…) Musieliśmy podjąć interwencję bezpośrednio w sali routingu, bezpośrednio na urządzeniu sieciowym: odłączyliśmy kable sieciowe, aby zrestartować system i w końcu przeprowadzić diagnostykę z dostawcą urządzeń sieciowych. Próby zrestartowania urządzeń trwały bardzo długo, każde urządzenie uruchamiało się od 10 do 12 minut. To główny czynnik odpowiedzialny za czas trwania awarii – mówi Octave Klaba.
Wyjaśnia, że firma korzysta z systemu, który pozwala – w przypadku przerwania światłowodu, na przykład w trakcie prowadzenia robót ziemnych – na ponowne skonfigurowanie połączenia w ciągu 50 milisekund. Stało się więc jasne, że przyczyny awarii leżą gdzie indziej. Winnym okazał się błąd oprogramowania w urządzeniach sieciowych.
– Baza danych z konfiguracją jest rejestrowana trzy razy i kopiowana na dwie karty monitorujące. Mimo wszystkich tych zabezpieczeń baza zniknęła. Będziemy kontynuować współpracę z producentem sprzętu, aby znaleźć przyczynę problemu i doprowadzić do jak najszybszego usunięcia błędu oprogramowania. Nie wycofujemy zaufania, jakim darzymy dostawcę urządzeń, nawet jeżeli ten typ błędu jest szczególnie krytyczny – dodaje Klaba.
Szef OVH posypuje głowę popiołem i zapowiada, że klienci, których dotknęła awaria otrzymają stosowne odszkodowania.
– Błędy w oprogramowaniu mogą istnieć, awarie, które dotykają naszych klientów – nie. Najwyraźniej mamy do czynienia z niedociągnięciem po stronie OVH, gdyż mimo istotnych inwestycji w sieć, światłowody, technologie, właśnie doświadczyliśmy dwóch godzin przerwy w usłudze w całej naszej infrastrukturze w Roubaix – mówi.