
Reklama.
Pierwsze doniesienia mówiły o awarii w dostawie prądu, która odcięła serwery OVH od zasilania. Okazało się jednak, że za odcięcie od sieci milionów stron odpowiada… błąd w oprogramowaniu.
– W czwartek, o 8:01 nagle wszystkie łącza 100G, z 44 dostępnych, utraciły połączenie. Biorąc pod uwagę system redundancji, który mamy wdrożony, przyczyną problemu nie mogło być przecięcie wszystkich 6 światłowodów jednocześnie. (…) Musieliśmy podjąć interwencję bezpośrednio w sali routingu, bezpośrednio na urządzeniu sieciowym: odłączyliśmy kable sieciowe, aby zrestartować system i w końcu przeprowadzić diagnostykę z dostawcą urządzeń sieciowych. Próby zrestartowania urządzeń trwały bardzo długo, każde urządzenie uruchamiało się od 10 do 12 minut. To główny czynnik odpowiedzialny za czas trwania awarii – mówi Octave Klaba.
Wyjaśnia, że firma korzysta z systemu, który pozwala – w przypadku przerwania światłowodu, na przykład w trakcie prowadzenia robót ziemnych – na ponowne skonfigurowanie połączenia w ciągu 50 milisekund. Stało się więc jasne, że przyczyny awarii leżą gdzie indziej. Winnym okazał się błąd oprogramowania w urządzeniach sieciowych.
– Baza danych z konfiguracją jest rejestrowana trzy razy i kopiowana na dwie karty monitorujące. Mimo wszystkich tych zabezpieczeń baza zniknęła. Będziemy kontynuować współpracę z producentem sprzętu, aby znaleźć przyczynę problemu i doprowadzić do jak najszybszego usunięcia błędu oprogramowania. Nie wycofujemy zaufania, jakim darzymy dostawcę urządzeń, nawet jeżeli ten typ błędu jest szczególnie krytyczny – dodaje Klaba.
Szef OVH posypuje głowę popiołem i zapowiada, że klienci, których dotknęła awaria otrzymają stosowne odszkodowania.
– Błędy w oprogramowaniu mogą istnieć, awarie, które dotykają naszych klientów – nie. Najwyraźniej mamy do czynienia z niedociągnięciem po stronie OVH, gdyż mimo istotnych inwestycji w sieć, światłowody, technologie, właśnie doświadczyliśmy dwóch godzin przerwy w usłudze w całej naszej infrastrukturze w Roubaix – mówi.