Затеянный мной «сериал» (предыдущие заметки см. здесь и здесь) о сегодняшней серверной стратегии Intel наконец дошел до наиболее волнующей темы – политики в отношении серверов и систем хранения информации. Ее составляющие уже рассматривались на IT Galaxy, однако несмотря на обобщенный характер этой моей заметки в ней тоже встретятся кое-какие интересные цифры. Возможно, вам они раньше не попадались.

Стратегия в отношении серверов

Напомню, что примерно 70% серверов у Intel заняты обслуживанием групп разработчиков, занимающихся проектированием продукции. На остальные области, т.е. на офисные, производственные и корпоративные нужды приходится по 10% серверного парка. Естественно, что именно серверам инженерных приложений уделяется максимальное внимание при решении задач повышения эффективности работы ЦОД’ов. Выполняемые на серверах данной группы инженерные приложения EDA (Electronic Design Automation) можно разделить на пакетные, производящие расчеты без вмешательства пользователей, и интерактивные, в ходе работы активно взаимодействующие с пользователями. Традиционно ЦОД’ы, обслуживающие процесс проектирования, располагались вблизи от центров разработки, чтоб минимизировать латентность коммуникаций. Последняя критически важна именно для интерактивных приложений. Это небольшое «лирическое» отступление о специфике дизайнерских ЦОД’ов полезно иметь в виду при рассмотрении сегодняшней темы. Другие подробности о том, как организована работа конструкторов в Intel и ее серверная поддержка, можно найти в заметках «Эффективная страховка для датацентра» и «Разработка микропроцессоров, как цепная реакция».

Как выяснилось при выполнении 8-летнего плана, основанного на идее консолидации ЦОД’ов, занятые интерактивными приложениями серверы нельзя переместить на другие площадки, более удаленные от центров разработки. Это поставило под вопрос эффективность программы консодидации в отношении двух третей серверного парка. Разработанная IT-департаментом корпорации новая долгосрочная стратегия призвана решить проблему повышения эффективности дизайнерских ЦОД’ов не только за счет консолидации, но и другими способами. Ее основные задачи – повысить эффективность использования серверов при одновременном сокращении затрат (TCO) и энергопотребления. Средствами достижения поставленных целей стали:
• сокращение периода эксплуатации серверов с их заменой на системы с более мощными и энергоэффективными процессорами;
• виртуализация серверных ресурсов;
• виртуализация ресурсов на уровне ЦОД’ов.

Как и многие другие компании, в недалеком прошлом Intel, исходя из соображений экономии, придерживалась стратегии как можно более долгой эксплуатации серверов. В то же время, принятый в корпорации срок полной амортизации серверов составлял 4 года, как и сейчас. Однако серверы не выводились из эксплуатации и после амортизации, что создавало иллюзию экономической целесообразности. На самом же деле, как показали расчеты TCO, затянувшееся использование старых компьютеров сопряжено с ростом как прямых, так и косвенных затрат (обслуживание, сопровождение ПО, эффективность работы пользователей и т.д.). Альтернативой этому подходу стали соблюдение 4-летнего цикла обновления парка и политика оптимизации серверных закупок путем ориентации на системы с наилучшей производительностью. В частности, на серверы с многоядерными процессорами Xeon последнего поколения.

Предварительные тестирования и расчеты, выполненные IT-департаментом, показали, что оснащенные четырехъядерными Xeon 5500 серверы обладают в 13 раз большими вычислительными ресурсами (см. рисунок ниже), чем подлежащие замене 4-летние серверы на одноядерных чипах. Это открывает возможность путем виртуализации заменить 13 физических серверов на всего 1. Если же сравнивать серверы на Xeon 5570 и закупленные в 2005 г. серверы на 64-битных Xeon с 2-мегабайтным кешем L2, то коэффициент виртуализации составит 10:1 без потерь производительности для приложений EDA.

Ставшее возможным десятикратное сокращение числа серверов, конечно, положительно сказывается и на характеристиках ЦОД’ов – сокращаются необходимые для размещения серверов площади, уменьшается нагрузка на перекрытия, упрощается решение задач охлаждения, сокращается энергопотребление и степень воздействия на экологию. Представим себе это в цифрах. Типичная стойка образца 2009 г. вмещает 84 сервера на базе процессоров Xeon 5570 (2.93 ГГц) с памятью от 48 до 96 Гбайт на каждый. Для ее размещения требуется меньше 4 кв. метров. Энергопотребление составляет 30 кВт. Один такой шкаф приходит на замену купленным в 2005 г. 10 стойкам, располагавшимся на 37 кв. метрах и потреблявшим 225 кВт электроэнергии. На покой, освобождая место новому, уходят 840 серверов на процессорах Xeon 3.8 ГГц с 2 Мбайт L2-кеша, имевшие по 4 Гбайт ОЗУ на сервер. Целый машинный зал освобождается, а его вычислительные ресурсы уместились в единственном шкафу!

Еще одним аргументом в пользу политики закупок именно наиболее мощных серверов послужил проведенный IT-департаментом анализ структуры затрат TCO при 4-летнем цикле обновления. Выяснилось, хотя это большинству покажется странным, что расходы, сопряженные с программным обеспечением (межплатформенное ПО, ОС, БД, приложения), в 3.8 раза превосходят затраты на аппаратную платформу. В случае серверов на долю закупочной стоимости процессора при этом остается совсем немного. Вывод: разница в цене между близкими по конфигурациям серверами с топовыми и нижними в линейке процессорами настолько слабо влияет на TCO, что делает бессмысленным подобную экономию, тем более что использование мощных процессоров способно принести дополнительную отдачу в плане эффективности труда пользователей.

Применительно к «конструкторским» ЦОД’ам виртуализация на уровне серверов в сочетании с их своевременным обновлением решают поставленные в рамках новой серверной стратегии задачи, но не полностью. Дело в том, что эти площадки традиционно были ориентированы на обслуживание лишь «своих» центров разработки и оснащались серверами в объеме, необходимом для пиковых нагрузок. Большую же часть времени там наблюдалась значительная недозагрузка мощностей. Решением проблемы стала виртуализация самих ЦОД’ов. Для этого на базе пулов серверов, предназначенных для выполнения пакетных заданий, были сформированы «виртуальные датацентры». Поскольку для пакетных приложений увеличение латентности коммуникаций не является критичным, группы разработчиков получили возможность размещать значительную часть своих заданий (порядка 50%) в удаленных ЦОД’ах. Ну а ресурсы локальных серверных площадок по-прежнему используются для интерактивных приложений и backend-сервисов.

За счет данного подхода удалось не просто выровнять загрузку в локальных ЦОД’ах центров разработки, но и путем сосредоточения ресурсов, предназначенных для пакетных вычислений, в 3 основных агрегационных сайтах, поднять коэффициент утилизации до 80% с лишним:

С другой стороны, доступность любой группе разработчиков независимо от ее географического местонахождения значительных вычислительных ресурсов таких укрупненных ЦОД’ов служит страховкой на случай как незапланированного роста пиковых нагрузок, так и при серьезных авариях и катастрофах (об этом говорилось в заметке «Эффективная страховка для датацентра»).

В последние несколько лет основные усилия по оптимизации серверного парка Intel были сосредоточены на той его части, которая обслуживает проектирование и производство продукции. Теперь же, начиная с 2010 г., полученный опыт, особенно в использовании виртуализации, будет применен для ЦОД’ов, где сосредоточено обслуживание офисных и корпоративных приложений. Сегодня в этих ЦОД’ах виртуализацией затронуто от 10 до 20% серверов. Хотя это и немного, но уже заметен эффект в уменьшении энергопотребления и затрат на «железо», повышении утилизации ресурсов. При модернизации этой части серверов были получены более высокий, чем прежде, показатель ROI.

Тестирование серверов на Xeon 5500 показывает еще большие перспективы применения виртуализации в случае офисных приложений, чем для инженерных задач. При сохранении существующего уровня затрат (TCO) на новых серверах может быть поднято вдвое большее количество виртуальных машин, чем поддерживается двухпроцессорными серверами предыдущего поколения. Коэффициент консолидации ресурсов при этом достигнет 20:1. Кроме того, приятной стороной виртуальных серверов является то, что на них гораздо проще проводить подготовку и развертывание новых софтовых сред и приложений. Если на обеспечение пользователей новыми офисными приложениями раньше требовались недели, то теперь это делается за считанные дни.

Исходя из этого, при плановых обновлениях серверов в ЦОД’ах, обслуживающих офисный и корпоративный секторы, будут устанавливаться компьютеры последней платформы (сегодня это Xeon 5500, но по мере появления новинок будут применяться и они, конечно). Через несколько лет уровень виртуализации в этих ЦОД’ах достигнет 70-80%.

Подчеркну, что речь идет не о кампании по немедленной замене старого новым, разумный подход заключается в том, чтобы не форсировать события, но и не упускать открывающиеся возможности при проведении запланированных мероприятий. Такая же стратегия актуальна, например, при развертывании новых версий ОС, как серверных, так и клиентских. Но вернемся к «железу».

Стратегия своевременного обновления парка серверов с переходом к виртуализации принесла ощутимые плоды. В 2008 г. корпорация вывела из эксплуатации 20000 серверов на одноядерных процессорах, заменив их 4000 серверов на базе Xeon 5400. В результате за 2008 г. была получена экономия затрат в размере 45 млн. долларов. Плюс к этому, за усилия по экономии электроэнергии корпорация имеет возможность получить поддержку по действующей в штате Орегон программе стимулирования энергосбережения.

Хранение данных

В настоящее время суммарная емкость первичных и резервных систем хранения данных у корпорации Intel достигает 18 петабайт. Но это не предел, поскольку на дальнейший рост потребностей в накопителях всех типов действует множество факторов. Это и растущая по закону Мура сложность проектируемых полупроводниковых чипов, и увеличивающееся число корпоративных транзакций, и объемы обмена данными между сайтами – список каждый сможет продолжить.

Intel выстраивает корпоративную стратегию хранения данных, учитывая специфические требования областей использования (дизайн, офис, производство, корпоративные приложения – та самая модель DOME о которой говорилось в первой части), а также преследуя общие для многоуровневой серверной стратегии цели – достижение максимальной эффективности (применительно к накопителям это понятие охватывает надежность, масштабируемость, производительность, доступность) при одновременном улучшении показателей TCO и энергосбережения.

Сначала немного сведений о том, что у корпорации имеется. В секторе дизайна используется среда Linux и основную роль играют накопители NAS, применяемые для совместного доступа к файлам. Общая их емкость составляет около 8 Пбайт. Поскольку для конструкторских и инженерных задач задействованы не только обычные рабочие станции, но и HPC-решения, существует потребность в более быстрых накопителях. Эту роль играют накопители с параллельным доступом суммарной вместительностью 1 Пбайт. Применяются в этом секторе также и SAN-решения (в первую очередь для БД и приложений валидации готовых продуктов), емкость которых приближается к 1 Пбайту.

Потребности остальных подразделений способны обеспечиваться SAN-системами. Их суммарная емкость немногим превышает 8 Пбайт. Небольшое количество NAS-накопителей применяется для файлового обмена в офисной, корпоративной и производственной сферах. Тут реализована трехуровневая модель хранения информации, учитывающая специфику требований по производительности, надежности, доступности разного рода данных. Такая модель, как известно, позволяет оптимизировать и сопряженные с хранением данных затраты.

Системы архивирования, резервного копирования и восстановления данных построены как на дисковых, так и на ленточных накопителях. Последние применяются для долгосрочного архивного хранения информации, а также на случай возникновения необходимости восстановления функционирования ЦОД’ов при масштабных авариях и катастрофах (ресурсы для Disaster Recovery). Поскольку основную часть времени ленточные библиотеки пребывают в оффлайне, они выгодны как по себестоимости хранения данных, так и по энергопотреблению. Дисковые системы резервного копирования установлены там, где необходима быстрота при восстановлении информации. В то же время они справляются с заданиями резервного копирования достаточно быстро и в меньшей степени создают помехи работы остальных сервисов и приложений.

Как и в случае с серверами, оптимизации в первую очередь подверглись накопители, задействованные для конструкторских и инженерных нужд. Не только потому, что они критически важны для корпорации, но и в силу своего размещения в тех же ЦОД’ах. Приложения разработки наиболее чувствительны к производительности и масштабируемости системы хранения данных. Те накопители, которые использовались в корпорации раньше, были способны обслужить только 400 распределенных клиентов и имели ограничение по размерам томов в 400 гигабайт. На самом же деле сегодня центрам разработки необходимо, чтобы хранилища обслуживали минимум 4000 клиентов и предоставляли тома объемом в 3 терабайта.

Применение тех же решений, что и раньше, привело бы к установке дополнительно десятка или даже больше стоек с накопителями. То, что этому оборудованию надо найти место для размещения, еще полбеды. Хуже, что оно потребовало бы дополнительного охлаждения и энергоснабжения. Наконец, репликация больших объемов инженерных данных между многочисленными файловыми серверами тоже создает немалую нагрузку для ЦОД’ов. Отказавшись от такого пути, корпорация решила обратиться к накопителям с параллельным доступом, которые не только могли бы удовлетворить текущие потребности в емкости, но также обеспечили бы более высокую производительность, масштабируемость и имели бы лучшие показатели TCO. Такие накопители первоначально предназначались для суперкомпьютерных кластеров, но здесь им нашлось применение в общем-то обычной производственной вычислительной среде.

Решение оказалось правильным. За три года после того, как Intel заменила предыдущие системы хранения данных на системы параллельного доступа экономический эффект составил 22.68 млн. долларов, плюс были достигнуты и другие впечатляющие результаты. Во-первых, если говорить о масштабируемости, то каждый параллельный сервер оказался способен заменить 10 традиционных файловых серверов, за счет чего коэффициент консолидации составил 10:1. Отсюда существенная экономия площадей и снижение энергопотребления. Во-вторых, для некоторых приложений прирост производительности вследствие перехода на параллельные накопители оказался выше 300%. В-третьих, размер максимальный томов увеличился 16-кратно – с 400 до 6400 гигабайт. Преимущества, полученные при переходе к накопителям с параллельным доступом, подытожены в таблице:

Что не менее важно, новая параллельная система хранения данных не только удовлетворяет сегодняшние потребности центров разработки, но и обладает запасом на будущее, способна эволюционировать по мере того, как будут меняться требования к накопителям при переходе на производство и разработку продукции по 32- и 22-нм технологическим нормам.

О будущем

Главное отличие и преимущество новой серверной стратегии Intel перед принятым раньше курсом на консолидацию кроются в ее долгосрочности и адаптируемости к изменяющимся бизнес условиям. Неизменными остаются только цели – эффективность, финансовая обоснованность, экономичность и экологичность. Сегодня это достигается благодаря ускоренному обновлению серверов, базирующемуся на наименьшей TCO, широкому переходу на виртуализацию, использованию мощных серверов, систем хранения данных и т.д. Завтра могут появиться другие решения, способные принести не меньший эффект. Непрекращающийся поиск таких технологий, выяснение их реального потенциала по повышению эффективности ЦОД’ов и снижению энергопотребления тоже является компонентой новой стратегии. Приведу пару примеров.

В середине 2008 г. у корпорации появилась первоначальная стратегия применения облачных вычислений, включавшая в себя модели «ПО как сервис» (SaaS), «Платформа как сервис» (PaaS) и «Инфраструктура как сервис» (IaaS). Несколькими годами ранее Intel начала пользоваться сторонними услугами SaaS и получила положительный опыт, но PaaS и IaaS от других провайдеров сколь-нибудь существенно еще не использовались.

«Облачный план» предполагал, с одной стороны, исследовать возможности использования сторонних предложений по PaaS и IaaS и, с другой, попытаться улучшить внутрикорпоративный хостинг, наделив его чертами облачных технологий. После ознакомления на практике в первой половине 2009 г. с сервисами PaaS, предлагаемыми сторонними провайдерами, было обнаружено, что существующие проблемы с безопасностью, совместимостью, нехваткой стандартов в этой области и невыгодная TCO делают их использование неинтересным в ближайшее время. Конечно, отрицательный результат – тоже результат. Но надо еще и учитывать, что облачные технологии пока находятся в стадии становления, развиваются весьма быстро и в будущем, скорее всего, им все-таки найдется место в вычислительной среде Intel.

Второй пример более оптимистичен. Речь идет о перспективах использования твердотельных накопителей для корпоративных и инженерных вычислений. Кое-что об этом я уже писал в блоге – «Стоимость приобретения: SSD против памяти», «SSD и мобильность пользователей», «SSD — солидное решение для солидного бизнеса?». За техническими подробностями и результатами тестов адресую вас к прежним публикациям, а здесь только кратко перечислю, в чем видит IT-департамент Intel пользу от применения SSD в своем компьютерном хозяйстве.

В ноутбуках SSD обеспечивает более быструю загрузку ОС и приложений, а также переключение между программами. Учитывая, что большинство корпоративных пользователей уже переведено на мобильные компьютеры, это способно дать заметный эффект. В высокопроизводительных рабочих станциях для инженеров-разработчиков, где требуется много ОЗУ, твердотельные диски могут послужить как более дешевой альтернативой дорогим DIMM’ам большой емкости (тестирование показало, что негативный эффект от свопинга оказался не столь уж большим), так и ускорить загрузку виртуальных машин, а заодно и переключение между ними. Еще проверяется концепция использования SSD в серверной области, о результатах мы поговорим, когда они станут доступны.