Что это было?

Наконец появились развернутые комментарии по поводу давешнего инцидента с Gmail.

Оказывается, причина заключалась в обновлении ПО для системы хранения. Причем, как можно понять из текста сообщения, невысокий процент (сейчас он уже оценивается всего в 0,02%) пострадавших объясняется именно тем, что процесс вовремя остановили. А если бы не это?

Т.е. такие объяснения скорее ставят новые вопросы, чем отвечают на прежние. Есть же более-менее очевидные подходы к столь важным процедурам, как обновление действующих и, особенно, критических систем. К примеру, та же Microsoft выпускает специальные инструменты, позволяющие отсрочивать установку сервис-пакетов через Windows Update. В WSUS можно "придерживать" любые заплатки — с целью их предварительного тестирования на каком-то специальном "полигоне" на предмет несовместимостей с используемым ПО и пр.

Но в случае облачных систем срабатывает тот самый пресловутый эффект масштаба, только наоборот. Речь ведь идет не об отдельных компьютерах, а об огромных высокоинтегрированных системах, довольно сложно устроенных и взаимосвязанных. Можно ли здесь адекватно протестировать обновление? С более-менее реальными объемами и нагрузками? Есть сомнения.