Сисадмін пішов на перекур і залишив без інтернету пів Африки

Опубликовал
Ігор Панченко

Інженер південноафриканського інтернет-провайдера випадково видалив важливі налаштування мережі, поспішаючи на перекур, що спричинило найбільший на той час збій у роботі інтернету на африканському континенті.

Кілька десятиліть тому один із провідних інтернет-провайдерів Південної Африки зіткнувся з безпрецедентною кризою через, здавалося б, незначну помилку свого співробітника. Інженер на ім’я Патон (Paton) працював «інженером магістральної мережі» — посада, яка вимагала високої відповідальності та уваги до деталей.

Компанія, де працював Патон, відігравала ключову роль у забезпеченні роботи інтернету не лише в Південній Африці, а й у сусідніх країнах. DNS-сервери провайдера були авторитетними для тисяч доменів, включно з національними доменами верхнього рівня кількох африканських держав.

Одного дня Патон отримав завдання оновити мережеві блокиМережевий блок — частина IP-адресного простору, виділена для використання в певній мережі або підмережі. та поширити їх через BGPBGP (Border Gateway Protocol) — основний протокол маршрутизації між автономними системами в інтернеті, який дозволяє передавати маршрути між різними мережами. до партнерів і транзитних провайдерів. Це передбачало редагування списків контролю доступу (ACL)ACL (Access Control List) — список контролю доступу, що визначає правила доступу до ресурсів мережі для різних користувачів або груп користувачів., які регулювали доступ користувачів і доменів до певних мережевих ресурсів. Зазвичай Патон виконував цю роботу ретельно, але цього разу колеги покликали його на перекур. Бажання приєднатися до них змусило інженера поспішати.

Повернувшись із перерви, Патон застав у офісі справжній хаос. Центр мережевих операцій був завалений дзвінками від розлючених клієнтів. Виявилося, що стався наймасштабніший на той час збій у роботі інтернету на африканському континенті.

Ситуацію погіршило те, що невідома особа, яка назвалася хакером, зв’язалася з місцевим технологічним виданням і заявила про свою причетність до інциденту. Новина швидко поширилася, створивши додаткові проблеми для керівництва компанії.

Розслідування показало, що жодного зламу систем безпеки не було. Патон, поспішаючи, випадково замінив усі наявні списки контролю доступу замість того, щоби просто додати нові мережеві блоки. Це призвело до того, що складна система маршрутизації інтернет-трафіку для значної частини Субсахарської Африки перестала функціонувати.

Після інциденту Патон не лише відновив ACL та оновив мережеві блоки, а й розробив перший у компанії протокол управління змінами — набір правил і процедур, що регулюють процес внесення змін до IT-систем, аби уникнути інцидентів або збоїв у роботі.

Джерело: TheRegister

Disqus Comments Loading...