Wiemy, co wysadziło internet w połowie Europy. Okazuje się, że to nie brak prądu, powód jest bardziej prozaiczny

Octave Klaba, szef OVH, tłumaczy jak doszło do awarii, która odcięła od sieci pół Europy
Octave Klaba, szef OVH, tłumaczy jak doszło do awarii, która odcięła od sieci pół Europy mat. prasowe
Czwartkowy poranek okazał się dla właścicieli kilkunastu milionów stron internetowych w Europie, w tym tysięcy w Polsce, pechowy. Potężna awaria firmy OVH, odpowiadającej za przesyłanie i przechowywanie danych, odcięła je od klientów. Nie działały strony, serwery pocztowe, serwisy transakcyjne. Szef firmy, Octave Klaba, tłumaczy jak doszło do awarii.

Pierwsze doniesienia mówiły o awarii w dostawie prądu, która odcięła serwery OVH od zasilania. Okazało się jednak, że za odcięcie od sieci milionów stron odpowiada… błąd w oprogramowaniu.

– W czwartek, o 8:01 nagle wszystkie łącza 100G, z 44 dostępnych, utraciły połączenie. Biorąc pod uwagę system redundancji, który mamy wdrożony, przyczyną problemu nie mogło być przecięcie wszystkich 6 światłowodów jednocześnie. (…) Musieliśmy podjąć interwencję bezpośrednio w sali routingu, bezpośrednio na urządzeniu sieciowym: odłączyliśmy kable sieciowe, aby zrestartować system i w końcu przeprowadzić diagnostykę z dostawcą urządzeń sieciowych. Próby zrestartowania urządzeń trwały bardzo długo, każde urządzenie uruchamiało się od 10 do 12 minut. To główny czynnik odpowiedzialny za czas trwania awarii – mówi Octave Klaba.

Wyjaśnia, że firma korzysta z systemu, który pozwala – w przypadku przerwania światłowodu, na przykład w trakcie prowadzenia robót ziemnych – na ponowne skonfigurowanie połączenia w ciągu 50 milisekund. Stało się więc jasne, że przyczyny awarii leżą gdzie indziej. Winnym okazał się błąd oprogramowania w urządzeniach sieciowych.

– Baza danych z konfiguracją jest rejestrowana trzy razy i kopiowana na dwie karty monitorujące. Mimo wszystkich tych zabezpieczeń baza zniknęła. Będziemy kontynuować współpracę z producentem sprzętu, aby znaleźć przyczynę problemu i doprowadzić do jak najszybszego usunięcia błędu oprogramowania. Nie wycofujemy zaufania, jakim darzymy dostawcę urządzeń, nawet jeżeli ten typ błędu jest szczególnie krytyczny – dodaje Klaba.


Szef OVH posypuje głowę popiołem i zapowiada, że klienci, których dotknęła awaria otrzymają stosowne odszkodowania.

– Błędy w oprogramowaniu mogą istnieć, awarie, które dotykają naszych klientów – nie. Najwyraźniej mamy do czynienia z niedociągnięciem po stronie OVH, gdyż mimo istotnych inwestycji w sieć, światłowody, technologie, właśnie doświadczyliśmy dwóch godzin przerwy w usłudze w całej naszej infrastrukturze w Roubaix – mówi.
Znajdź nas na Znajdź nas na instagramie
Trwa ładowanie komentarzy...

BLOGI

NAJNOWSZE WPISY

Piotr BuckiPiotr Bucki

Na jednym ze szkoleń uczestnicy robią ćwiczenie. Mają przygotować prostą anegdotę. Na dowolny temat. Może to być własna historia. Może być zasłyszana. Jedna z uczestniczek bardzo precyzyjnie i dobrze opowiada historię „o bezstresowym wychowaniu”. Być może ją znasz.

Igor IluninIgor Ilunin

Komunikacja machine-to-machine jest jednym z kluczowych składników przyszłości transportu globalnego.

Łukasz MurawskiŁukasz Murawski

Jeśli piszesz (lub zamierzasz pisać) książki, to raport z badań stanu czytelnictwa w Polsce za rok 2017 powinien Cię dodatkowo motywować.