Сайт Amazon «зліг» на три години через помилку некваліфікованого сисадміна. Ілюстрація: Depositphotos
Маленький одрук у файлі конфігурації системи резервного копіювання коштував Amazon трьох годин простою — фінансові втрати могли б обчислюватись мільйонами, якби історія сталась зараз, а не 20 років тому.
Ця історія була опублікована виданням Register в межах ретроспективної рубрики «Who, Me?», яка збирає цікаві робочі спогади фахівців зі сфери IT.
На цей раз мова йде про хлопця, на ім’я Кен, який 20 років тому влаштувався системним адміністратором Linux на сайт Amazon.com. За словами самого чоловіка на той час, він був «абсолютно некваліфікованим» для цієї роботи, але попередній досвід в Solaris допоміг йому успішно пройти співбесіду. Кен швидко вивчив основи Linux, але вже перебуваючи в штаті виявив, що середовище Red Hat Enterprise Linux, яке існувало на той час, дуже відрізнялося від Solaris. Попри відсутність необхідних знань керівник доручив Кену оновити робочу програму для резервного копіювання на плівкові накопичувачі.
«Я витратив місяці на планування та тестування, тому що з цим оновленням файли конфігурації змінилися, і нам довелося створювати нові та випускати їх разом з оновленням», — розповідає Кен. «Я створив ці файли та провів усі необхідні тести. Здавалося, що все гаразд, і настав день, коли ми натиснули кнопку».
Протягом перших кількох годин здавалось, що все працює як задумано, тож сисадмін похвалив себе та рушив додому. Десь о 7-й вечора пейджер Кена наче «збожеволів» і вже за лічені хвилини сисадмін приєднався до робочого конференц-дзвінка. Кен згадує, що на зустрічі були всі високопоставлені особи Amazon на той час, зокрема й тодішній гендиректор компанії Джефф Безос. Всіх цікавило одне єдине питання — чому не працює сайт?
Кен із колегами розпочали перевірку і виявили, що основна база даних онлайн-магазину Amazon перестала працювати, попри те, що величезний кластер комп’ютерів, який і забезпечував цю роботу, «почував» себе нормально. Чоловік знав, що створена ним програма резервного копіювання копіює журнали бази даних на стрічку, а потім має видаляти з серверів. Виявилось, що останній процес не завершується, оскільки Кен допустився однієї друкарської помилки.
«Проблеми не було протягом перших годин, але зрештою розділ, що зберігав журнали, заповнився, і база даних просто здалася та почала скаржитися, що її більше ніхто не любить», — каже Кен.
Переконавшись, що жоден з файлів журналів не було втрачено, Кен видалив їх в кластері та спостерігав, як база даних ожила — як і Amazon.com. Чоловік виправив одрук у файлі конфігурації й попрямував додому в неспокійну ніч з думками про пошук нової роботи.
«Наступного ранку я приїхав до офісу і побачив свого менеджера, який стояв біля мого місця паркування, ще явно не видавалось добрим знаком», — згадує Кен. «Я вийшов з машини та підійшов до нього. Він мовчав секунд 15 і пильно на мене дивився. А потім широко посміхнувся і сказав: “Вітаю, ти втратив цноту”. Ми зайшли в офіс, де всі ще довго з мене знущалися».
Нагадаємо, що поділитись власним досвідом роботи у сфері IT з однодумцями ви завжди можете в розділі «Дописи» на ITC, або просто тут в коментарях.
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.