AMD провела онлайн-презентацию Accelerated Data Center Premiere, на которой анонсировала серию ускорителей вычислений AMD Instinct MI200, предназначенную для рабочих нагрузок AI и HPC, а также раскрыла детали о будущих серверных процессорах EPYC.

Instinct MI200 на архитектуре Compute DNA 2-го поколения (CDNA 2)

Выпуск ускорителей Instinct серии MI200 во многих отношениях является кульминацией всех усилий AMD за последние несколько лет. Микроархитектура CDNA 2 не несет каких-либо кардинальных архитектурных изменений, но устраняет некоторые недостатки первого поколения CDNA, а также интегрирует оборудование, необходимое для полноценного использования шины Infinity Fabric.

В линейку вошли устройства Insinct MI250 и MI250X форм-фактора OAM (OCP Accelerator Module), а также Insinct MI210 c интерфейсом PCIe.

6-нм GPU GCD CDNA 2

Сердце Instinct MI200 — безымянный 6-нм кристалл CDNA 2, изготавливаемый на мощностях TSMC по технологии N6. AMD называет его Instinct MI200 Graphics Compute Die (GCD). Его точные размеры неизвестны, но сообщается, что он содержит 29,1 млрд транзисторов. Внутри GCD — 112 вычислительных блоков CU, разделенных на четыре кластера Compute Engine. Они соединены с 4 контроллерами памяти HBM2E и 8 соединениями Infinity Fabric.

По сравнению с MI100 это относительно небольшой прирост увеличения количества транзисторов с точки зрения смены поколений — несмотря на удвоение количества высокоскоростных соединений I/O вне кристалла и удвоение размера почти каждого последнего блока целочисленных вычислений (ALU) на кристалле, транзисторный бюджет GCD CDNA 2 всего на 14% (3,5 млрд) больше. Отчасти это объясняется сокращением количества CU на кристалле — со 120 в предыдущем поколении до 112 в CDNA 2. Но очевидно, что AMD использовала немного потенциала от перехода на техпроцесс TSMC N6 для наращивания транзисторного бюджета. Это позволило сместить фокус в другом направлении и совершить переход к чиплетной схеме, уже хорошо знакомой по процессорной архитектуре Zen.

Многочиповый дизайн GPU и компоновка 2,5D Elevated Fanout Bridge (EFB)

Как и предполагалось, AMD опередила Intel и NVIDIA в выпуске многочиповых GPU — ускорители MI200 содержат не один, а два GCD в конфигурации с несколькими микросхемами (MCM). Эти два графических процессора, в свою очередь, функционально независимы друг от друга; но оба соединены друг с другом посредством четырех Infinity Fabric (то есть, в сумме 8 Infinity Fabric). Это отличает MI200 от предыдущих поколений серверов AMD с несколькими графическими процессорами, поскольку все они использовали некогерентную шину PCIe. Через Infinity Fabric новейшие ускорители Instinct MI200 смогут соединяться с CPU EPYC 3-го поколения и другими GPU в узле для обеспечения единой когерентности памяти CPU/GPU и максимальной пропускной способности системы.

Еще одна особенность ускорителей Instinct MI200 — технология 2.5D Elevated Fanout Bridge (EFB). Вместе с двумя GPU на одной подложке соседствуют восемь стеков оперативной памяти HBM2E суммарным объемом 128 ГБ.

Схема 2.5D Elevated Fanout BridgeЭто эволюционное развитие технологии 2.5D (вспоминаем о X3D). Если вкратце, ключевое отличие EFB — она позволяет строить над подложкой, а не внутри нее. В данном случае пара основных микросхем — GPU и стек HBM — размещается на поверхность литейной формы с рядом медных опор, которые позволяют контактам с большим шагом на микросхемах взаимодействовать с подложкой традиционным способом. В то же время под микровыступами, используемыми для HBM, помещается кремниевый мостик.

Идея в том, чтобы поднять HBM и GPU и использовать пространство для установки небольшого кремниевого моста, не углубляясь в подложку. По сравнению с традиционным преобразователем, который использовался в MI100, преимущества EFB очевидны: отсутствие массивного и сложного кремниевого преобразователя. AMD также утверждает, что EFB дешевле и технологически проще по сравнению с решениями типа «мост в подложке» вроде EMIB. Поскольку все происходит над подложкой, никаких специальных подложек не требуется, а итоговый процесс сборки намного ближе к традиционной упаковке flip-chip. AMD также считает, что EFB окажется более масштабируемым решением.

В целом EFB во многом напоминает технологию упаковки TSMC InFO-L, которая была анонсирована еще в 2020 году и использует мост над подложкой. С учетом тесных партнерских отношений между AMD и TSMC, сложно оценить инновационный вклад AMD в EFB по сравнению с InFO-L.

ТТХ MI200

С полными спецификациями ускорителей MI200 можно ознакомиться ниже.

Сравнение характеристик MI200 с MI100. Изображение: AnandTech

Тесты производительности

По данным AMD, GCD CDNA 2 обеспечивает в 1,8 раза больше ядер и в 2,7 раза большую пропускную способность памяти по сравнению с GPU предыдущего поколения, а также предлагает лучшую в отрасли совокупную пиковую теоретическую пропускную способность памяти в 3,2 терабайта в секунду.

AMD указывает полную пропускную способность обоих GCD для производительности своих ускорителей MI200, но есть оговорка: по сути, речь идет о двух отдельных GPU и даже высокоскоростные соединения Infinity Fabric полностью не компенсируют потери в скорости, обустроенные этой конструктивной особенностью. Иными словами, обмен данными между двумя GPU будет проходить значительно медленнее по сравнению с монолитным дизайном, отмечает AnandTech.

AMD в своих тестах сравнивает MI200 с NVIDIA A100. Однако конкурировать MI200 в будущем придется с грядущими многочиповыми ускорителями Ponte Vecchio (Xe-HPC) и GH100 (Hopper).

Доступность

Ускоритель AMD MI250X уже доступен в составе суперкомпьютера HPE Cray EX, а в первом квартале 2022 года ускорители Instinct MI200 станут доступны в системах от основных OEM и ODM партнеров на корпоративных рынках. Среди них: ASUS, ATOS, Dell Technologies, Gigabyte, Hewlett Packard Enterprise (HPE), Lenovo, Penguin Computing и Supermicro.

EPYC (Milan-X)

Ускорители Instinct MI200 заняли центральное место презентации, но не всю. Их премьеру сопроводили серверные процессоры EPYC (кодовое имя Milan-X). На фоне актуальных EPYC 3-го поколения (Milan) они выделяются увеличенным объемом кэш-памяти L3 — топовые модели предложат до 768 МБ. Это та самая технология 3D V-Cache, о которой мы уже не раз писали. В начале следующего года выйдут потребительские Ryzen (Vermeer-X) для с увеличенным L3-кэшем, которые сохранят разъем AM4.

Для Milan-X заявлен полуторакратный (в среднем) прирост быстродействия в «целевых рабочих нагрузках».

Процессоры Milan-X станут доступны заказчикам в первом квартале 2022-го и их можно будет использовать в серверах с разъемом Socket SP3 после обновления прошивки. Подробностей о модельном ряде и ценах AMD, увы, не раскрыла.

EPYC Genoa и EPYC Bergamo

Попутно AMD рассказала о будущих серверных чипах EPYC — в следующем году должны выйти чипы Genoa на микроархитектуре Zen 4, а на первую половину 2023-го запланирован релиз Bergamo на Zen 4с. Оба эти семейства CPU будут производиться на мощностях TSMC по нормам 5 нм, получат поддержку DDR5 и PCIe 5.0.

В линейку Genoa войдут процессоры с числом физических ядер до 96 ядер. AMD уверена, что они станут самыми производительными процессорами в мире для вычислений общего назначения. К слову, конкурировать AMD EPYC Genoa придется с будущими Intel Sapphire Rapids — они будут опираться на актуальную архитектуру Golden Cove (Core 12-го поколения) ~~техпроцесс 10 нм~~ Intel 7. По слухам, процессоры Sapphire Rapids будут иметь до 56 ядер.

Что же касается Bergamo, эти CPU разработаны специально для облачных приложений. Они предложат до 128 ядер Zen 4c, оптимизированной для облачных рабочих нагрузок,
которые выигрывают от максимальной плотности потоков. Чипы Bergamo будут использовать тот же сокет (предположительно SP5), что и EPYC Genoa. Они сохранят сокет SP5 и будут поставляться со всеми теми же программными средствами и функциями безопасности, что и Genoa.