Подробно об инциденте с сервисом Gmail

 

 

 

Царь Надежности Сайта (должность Бена Трейнора в корпорации Google) дал исчерпывающие пояснения о случившемся отказе веб-интерфейса популярного почтового сервиса на официальном блоге Gmail: 

Веб — интерфейс почтового сервиса Gmail был недоступен из любой точки мира на протяжении приблизительно 100 минут. Мы знаем, как много людей полагается на Gmail для личной и корпоративной переписки, и мы относимся к этому очень серьезно, когда имеет место проблема с обслуживанием. Итак, первым делом, я хотел бы принести извинения всем Вам — сегодняшнее отключение имело огромный масштаб, и мы тоже это понимаем. Мы уже полностью исследовали случившееся, и в настоящее время собираем список того, что мы намереваемся настроить или улучшить в результате исследования.

 

Вот что случилось: этим утром (Тихоокеанское время, вечером по Киеву) мы перевели маленькую часть серверов Gmail’s в офлайн для выполнения обычных обновлений. Собственно это не проблема — мы делаем так постоянно, серверы веб-интерфейса Gmail размещены во всем мире, трафик просто пересылается к другим серверам, когда какие-нибудь находятся в  офлайн.

 

Однако, как мы теперь узнали, мы немного недооценили загрузку, после небольших недавних изменений (некоторые из них иронически были нацелены на улучшение доступности сервиса), загруженные в маршрутизаторы запросов — серверы, в которых прямые запросы из сети перенаправлялись на соответствующий сервер Gmail для ответа. В районе 12:30 по Tихоокеанскому времени несколько маршрутизаторов запросов оказались перегруженными и сообщили остальной части системы "хватит посылать нам трафик, мы работаем слишком медленно!". Это передало загрузку на оставшиеся маршрутизаторы запроса, вызывая перегрузку еще нескольких из них, и в течение считанных минут почти все маршрутизаторы запросов были перегружены. В результате люди не могли обратиться к Gmail через веб — интерфейс, потому что их запросы не могли быть перенаправлены на сервера Gmail. Доступ IMAP/POP и сама обработка почты продолжали работать как обычно, потому что эти запросы не используют упомянутые маршрутизаторы.

 

Техническая группа Gmail была оповещена об отказах в течение секунд (мы относимся к мониторингу очень серьезно). Когда было установлено, что основная проблема — недостаточная полезная мощность, техгруппа подключила большое количество дополнительных маршрутизаторов запросов (гибкость — одно из преимуществ архитектуры Google), распределив трафик между маршрутизаторами запросов, и веб — интерфейс Gmail возвратился в онлайн.

 

Что дальше: Мы приложим свои полные усилия к тому, чтобы такая ситуация не случилась вновь. Некоторые из действий очевидны и и уже сделаны — например, увеличены мощности маршрутизаторов запросов, чтобы обеспечить необходимый запас. Некоторые из действий являются более тонкими — например, мы поняли, что маршрутизаторы запросов недостаточно изолированы от отказов (если есть проблема в одном датацентре, это не должно затрагивать серверы в другом датацентре) и некрасиво реагируют на перегрузку (например, если одновременно перегружено большое количество маршрутизаторов запросов, то они все должны лишь начать работать медленнее вместо того, чтобы отказаться принимать трафик и передвинуть всю их загрузку на оставшиеся). Мы будем упорно работать в следующие несколько недель, осуществляя эти и другие усовершенствования для надежности Gmail — Gmail остается доступным более чем 99.9 % для всех пользователей, и мы стремимся к тому, чтобы сохранить такие, как сегодня события запоминающимися и редкими.

Фото с личного сайта автора (http://www.treynor.com)

Источник: http://gmailblog.blogspot.com/2009/09/more-on-todays-gmail-issue.html

Опубликовано:http://fixit.com.ua/ru/node/59