Каждые полгода два университета – из немецкого города Мангейма и американского Теннесси – публикуют сводные рейтинги самых производительных вычислительных систем в мире. Очередная, двадцать седьмая по счету, редакция Tор 500 Supercomputer, как и положено, появилась в последние дни июня на сайте и официально была оглашена на проходившей в Дрездене International Supercomputer Conference 2006.
Сразу обратим внимание, что хотя по сравнению с ноябрьской версией лидер рейтинга не изменился, тем не менее определенные подвижки в списке произошли, в том числе появились новички в первой десятке. Но обо всем по порядку.
С ноября 2005 г. в Top 10 самых производительных систем сменилось три суперкомпьютера, также стоит отметить, что 158 представителей предыдущей редакции списка были вытеснены другими.
Итак, среди новичков на пятом месте суперкомпьютер Европы TERA-10, на седьмое место попала система, установленная в Tokyo Institute of Technology, следом за ней идет новый IBM Blue Gene из Forschungszentrum Juelich (Германия). А вот суперкомпьютер Earth Simulator, долгое время возглавлявший список, теперь лишь замыкает первую десятку.
Буквально накануне оглашения Tор 500 компания IBM и Администрация по ядерной безопасности (NNSA) объявили об очередном этапном достижении системы Blue Gene/L (BG/L), которая лишь упрочила свое положение самого быстрого суперкомпьютера в мире. BG/L установила новый мировой рекорд по скорости выполнения научно-технических приложений, продемонстрировав производительность на уровне 207,3 триллиона операций с плавающей запятой в секунду (TFLOPS) при исполнении программного кода Qbox, предназначенного для имитационного моделирования электропроводных материалов. Данная система используется в рамках Программы расширенного моделирования и компьютерной обработки (ASC), проводимой NNSA, которая позволяет без проведения подземных ядерных испытаний осуществлять исследования ядерного оружия, необходимые для обеспечения сохранности, безопасности и надежности ядерных арсеналов США (проект Stockpile Stewardship).
Повышение скорости выполнения по сравнению с предшествующими реализациями в значительной степени обусловлено применением созданных специалистами IBM новых математических библиотек, максимально использующих возможности двухъядерной архитектуры BG/L. «Впервые в истории научно-технический код выполнялся с постоянной скоростью 200 TFLOPS. Это существенно превышает прежний мировой рекорд, также установленный с помощью суперкомпьютера Blue Gene в лаборатории им. Лоуренса Ливермора», – заявил Дэвид Тюрек (David Turek), вице-президент подразделения IBM Deep Computing.
Код Qbox, основанный на первых принципах модели молекулярной динамики (FPMD), позволяет предсказать поведение металлов при экстремально высоких давлениях и температурах, что в течение длительного времени оставалось недостижимой целью для ученых в таких областях, как материаловедение и физика высоких энергий. Кроме того, коды на базе моделей FPMD применяются при сложном моделировании на атомном уровне в металлургии, физике твердого тела, химии, биологии и нанотехнологиях.
Использование кода на основе трехмерной модели, описывающей поведение под давлением атомов молибдена (переходного металла), – только один из примеров «прогнозирующего научного моделирования», выполняемого на уровне 1000 атомов. Модели классической молекулярной динамики часто оперируют миллиардами атомов, поскольку на таком уровне взаимодействие между атомами сравнительно легко просчитать. С другой стороны, квантовые модели – очень точные, но и очень сложные – до настоящего времени ограничивались 50 атомами. Переход от 50 к 1000 атомам дает возможность исследовать новые классы химических систем, в том числе гетерогенные среды (анализ взаимодействия между молекулами разных веществ) и химию экстремальных состояний (включая химические процессы при ударе). Это имеет важнейшее значение для осуществляемого NNSA проекта Stockpile Stewardship, а также для различных проектов по изучению биологических систем, включая исследование белков. Более того, высокая производительность кода Qbox, оптимизированного для работы на крупномасштабных платформах класса BG/L, может найти применение при решении разнообразных научных задач, например при создании новых материалов, необходимых во многих отраслях.
Самый мощный суперкомпьютер в Европе, ворвавшийся на пятую строчку в Tор 500, был также накануне представлен Комиссариатом по атомной энергии Франции (CEA) и компанией Bull. Система TERA-10 имеет максимальную производительность свыше 50 TFLOPS, что превышает предыдущий рекорд по быстродействию европейских суперкомпьютеров в 42,9 TFLOPS.
Суперкомпьютер TERA-10 содержит 4352 двухъядерных процессора Intel Itanium 2 с кодовым наименованием Montecito. В его основе 544 сервера NovaScale 6160 производства компании Bull, каждый из которых содержит по восемь двухъядерных чипов.
Отмечается, что как и Blue Gene/L, TERA-10 создавалась для задач военных ведомств, в данном случае – в рамках оборонной программы CEA Simulation Комиссариата по атомной энергии Франции.
Суперкомпьютер Red Storm Cray XT3 из Sandia National Laboratories |
Кстати, по заявлению компании Intel, места в первой десятке занимают три системы на базе ее архитектуры. Помимо TERA-10, находящейся, как уже упоминалось, на пятой позиции, процессоры Intel также составляют основу систем исследовательского центра NASA (четвертое место) и лабораторий Sandia National Laboratories (шестое место). В целом на базе платформ Intel работает более 60% систем из списка Tор 500.
В то же время следует констатировать некоторое уменьшение в списке количества систем, построенных на процессорах Intel, – с 333 до 301 (из них в 118 случаях используются процессоры с расширением EM64T). Чипы AMD Opteron становятся все более популярными, на них базируется уже 81 система (в ноябре их было 55).
Наиболее мощный суперкомпьютер на чипах AMD – недавно представленный TSUBAME, построенный совместно NEC и Sun в Токийском институте технологии (Tokyo Tech), – именно он сразу же оказался на седьмом месте в рейтинге. На сегодняшний день это самый быстрый суперкомпьютер в Азиатско-Тихоокеанском регионе. В нем использовано 10 480 ядер процессоров AMD Opteron в системе, созданной на основе нескольких сотен серверов Sun Fire Server x64.
TSUBAME – самый значительный проект компании Sun в области высокопроизводительных систем (HPC), показавший быстродействие 18 TFLOPS при непрерывной работе Linpack. Он занял одно из ведущих мест в рейтинге всего через три недели после установки, а пакет Linpack выполнялся на нем 11 ч – дольше, чем на любом другом компьютере, попавшем в Tор 500, как заявляют представители Sun Microsystems. Это подтверждает стабильность и надежность работы системы. В суперкомпьютере применяются технологии компаний ClearSpeed Technology, ClusterFS и Voltaire. (Кстати, 24-е место в рейтинге занял еще один суперкомпьютер, построенный Sun в Университете Южной Калифорнии (University of Southern California) – здесь удалось увеличить производительность с 10 до 13,8 TFLOPS.)
Что касается чипов AMD, то центр высокопроизводительных вычислений (HPCC) при Штутгартском университете установил кластер визуализации компании DALCO AG на базе процессоров Opteron. Решение было спроектировано с использованием Windows Compute Cluster Server 2003. Кроме того, процессоры AMD Opteron будут использованы и в суперкомпьютере, предназначенном для Национальной лаборатории Лоуренса Ливермора (LLNL). Компания Appro, поставщик высокопроизводительных серверов, объявила, что совместно с Voltaire, одним из мировых лидеров в решениях на базе grid-технологии, предоставит этой лаборатории более 16 000 процессоров AMD Opteron для создания суперкомпьютера Peloton.
«Использование процессоров AMD Opteron следующего поколения с памятью DDR2 для кластеров Appro Quad XtremeServer высотой 1U гарантирует, по нашим оценкам, лучшие в отрасли соотношение цены и производительности, а также показатели на 1 Вт потребляемой энергии. Как следствие, должны быть обеспечены максимально возможные эффективность, скорость и экономичность исследований, проводимых в этой лаборатории. Кроме того, предполагается, что при возникновении потребности в более высокой вычислительной мощности возможен простой переход на четырехъядерные процессоры», – заявил Даниэль Ким (Daniel Kim), генеральный директор Appro.
Кстати, общее число кластеров в списке Tор 500 еще немного увеличилось и составляет уже 365 систем (на пять больше, чем в ноябре). Таким образом, эта архитектура остается самой популярной при проектировании мощнейших суперкомпьютеров. В качестве коммуникационной технологии 255 кластеров используется Gigabit Ethernet, в 87 случаях – Myricom Myrinet.
Среди основных тенденций, отмеченных на конференции ISC 2006, можно выделить то, что постепенно суперкомпьютеры подбираются к рубежу 1 PFLOPS. Так, Сатоши Мацуока (Satoshi Matsuoka), профессор, отвечающий за вычислительную инфраструктуру в Глобальном научно-исследовательском центре информации и вычислительных технологий, подчеркнул, что его организация рассчитывает уже в ближайшем будущем создать в Японии суперкомпьютеры уровня 1000 триллионов операций с плавающей точкой в секунду. А вот за несколько недель до начала конференции компания Cray обнародовала совершенно конкретные планы. Так, было заявлено о подписании договора с Национальной лабораторией Департамента США по энергетике в Оак Ридж (Oak Ridge National Laboratory, ORNL), в соответствии с которым уже через два года будет создан самый мощный компьютер на Земле – с производительностью 1 PFLOPS. Таким образом, Cray намерена вернуть себе былую пальму первенства в данном сегменте. Но на пути к этому, согласно общему контракту, оцениваемому в 200 млн долл., будет проведена модернизация уже эксплуатирующейся в ORNL системы Cray XT3. К концу нынешнего года ее мощность будет увеличена с 25 до 50 TFLOPS сугубо за счет перехода на двухъядерные процессоры. Далее планируется нарастить показатели до 100, а к концу 2007 г. – до 250 TFLOPS.
А вот уже во второй половине 2008 г., согласно договору, лаборатория в Оак Ридж получит суперкомпьютер следующего поколения (под кодовым названием Baker) с производительностью 1 PFLOPS. Предполагается применение в системе нынешних и будущих версий процессора AMD Opteron. Кстати, суперкомпьютеры Cray первыми в 1989 г. преодолели планку в 1 GFLOPS, а следом – и в 1 TFLOPS в 1998 г.
Отмечается, что с помощью Baker в ORNL будут проводиться исследования передовых научных проблем, в частности в области частиц высоких энергий, а ученые из Гарвардского университета и Калифорнийского технологического института загрузят его задачами моделирования биологических систем, производства энергии и создания новых материалов. Кроме того, сугубо научными расчетами все не ограничится – планируется, что компании Boeing и DreamWorks будут также частично использовать Baker и для своих нужд.
Согласно оценке доктора Эриха Строумейера (Erich Strohmaier), при сохранении нынешних темпов роста производительности компьютеров можно ожидать появления системы с быстродействием 1 PFLOPS в ноябре 2009 г. Что касается Cray, IBM и Sun, задействованных DARPA для создания такого компьютера, то они сначала сделают теоретическую разработку (примерно через два года, как обещает та же Cray), а вот на Linpack такая возможность появится несколько позже, года через три.
Накопленная за много лет статистика по суперкомпьютерам позволяет довольно точно предугадывать позиции и производительность некоторых систем как минимум на один список вперед.
Следует также обратить внимание на неутихающую дискуссию по поводу представительности результатов HPL (Linpack), которые используют для оценки компьютеров в рейтинге. Аргументы «за»: длительная история замеров, простота/быстрота тестирования, масштабирование теста на очень больших системах, наличие единого результата. Что касается аргументов «против», то основной из них – не учитываются другие виды задач, кроме решения систем линейных уравнений.
Но вернемся к опубликованному рейтингу. Интересно, что последняя, 500-я система в новой редакции списка год назад была бы на 183-м месте, а для того чтобы попасть в текущий список, потребовалась производительность на Linpack 2,03 TFLOPS против 1,64 TFLOPS в ноябре. Суммарная производительность систем в списке выросла за полгода с 2,30 PFLOPS до 2,79 PFLOPS.
По количеству установленных систем, вошедших в Tор 500, продолжает лидировать компания IBM – 243 суперкомпьютера, второе место сохраняет Hewlett-Packard – 154. Интересно также, что системы IBM обеспечивают 54,3% производительности списка Top 500, а HP – 17,5%.
Что касается распределения по регионам, то здесь по-прежнему первенство за США – 299 систем, а вот Европа постепенно сдает позиции – 83 сверхмощных компьютера против сотни еще полгода назад. Чего не скажешь об Азии, которая заметно наращивает свое присутствие в списке – по сравнению с предыдущей редакцией количество установленных здесь систем увеличилось с 66 до 93.
Не успевают за ростом общей производительности и компьютеры, установленные в странах СНГ. Так, даже несмотря на увеличение числа процессоров с 924 до 1148 и быстродействия на тесте Linpack с 5,355 до 6,646 TFLOPS, с 69-го на 70-е место опустился российский суперкомпьютер MVS-15000BM производства IBM, установленный в Межведомственном суперкомпьютерном центре РАН. Еще одна система SKIF K-1000, построенная в Беларуси на основе 576 процессоров AMD Opteron 2,2 GHz (Linpack 2,032 TFLOPS), в новой редакции занимает уже 490-е место, а не 330-е, как в ноябре.
Место | Организация/страна | Компьтер/производитель |
1 | DOE/NNSA/LLNL | BlueGene/L – eServer Blue Gene Solution |
США | IBM | |
2 | IBM Thomas J. Watson Research Center | BGW – eServer Blue Gene Solution |
США | IBM | |
3 | DOE/NNSA/LLNL | ASC Purple – eServer pSeries p5 575 1,9 GHz |
США | IBM | |
4 | NASA/Ames Research Center/NAS | Columbia – SGI Altix 1,5 GHz, Voltaire Infiniband |
США | SGI | |
5 | Commissariat a l’Energie Atomique (CEA) | Tera-10 – NovaScale 5160, Itanium 2 1,6 GHz, Quadrics |
Франция | Bull SA | |
6 | Sandia National Laboratories | Thunderbird – PowerEdge 1850, 3,6 GHz, Infiniband |
США | Dell | |
7 | GSIC Center, Tokyo Institute of Technology | TSUBAME Grid Cluster – Sun Fire X64 Cluster, Opteron 2,4/2,6 GHz, Infiniband |
Япония | NEC/Sun | |
8 | Forschungszentrum Juelich (FZJ) | JUBL – eServer Blue Gene Solution |
Германия | IBM | |
9 | Sandia National Laboratories | Red Storm Cray XT3, 2,0 GHz |
США | Cray | |
10 | The Earth Simulator Center | Earth-Simulator |
Япония | NEC |
Страна | Количество систем |
США | 299 |
Англия | 35 |
Япония | 29 |
Китай | 28 |
Германия | 18 |
Индия | 11 |
Австралия | 9 |
Израиль | 9 |
Канада | 8 |
Франция | 8 |
Италия | 7 |
Бразилия | 4 |
Южная Корея | 4 |
Новая Зеландия | 4 |
Саудовская Аравия | 4 |
Швейцария | 4 |
Голландия | 3 |
Тайвань | 3 |
Бельгия | 2 |
Ирландия | 2 |
Сингапур | 2 |
Беларусь | 1 |
Дания | 1 |
Испания | 1 |
Малайзия | 1 |
Россия | 1 |
Швеция | 1 |
ЮАР | 1 |
Поставщики | Количество систем |
IBM | 239 |
Hewlett-Packard | 157 |
Dell | 22 |
Cray | 16 |
SGI | 12 |
Linux Networx | 8 |
Sun Microsystems | 7 |
Hitachi | 6 |
Собственная сборка | 6 |
Fujitsu | 4 |
NEC | 4 |
Операционные системы | Количество систем |
Linux | 367 |
UNIX | 98 |
Mixed | 24 |
Mac OS | 5 |
BSD Based | 4 |
Windows | 2 |