Архитектура AMD K10 на серверном рынке не смогла закрепить успех Opteron первого поколения, основанных на K8. Opteron второго поколения с ядром Barcelona вначале содержали нашумевшую ошибку кэша TLB, подорвавшую продажи настольных процессоров. Если в случае с Phenom AMD смогла изолировать ее изменением BIOS, пусть и ценой потери производительности, то в отношении серверных продуктов такое решение было бы неприемлемым. Потому AMD приостановила поставки Barcelona, намеченные еще на весну 2007 г., отгружая их только тем, кто предварительно проверил свое ПО на новых процессорах и убедился в отсутствии проблем.

Массовые поставки первых Opteron, выпускаемых по 65-нанометровому техпроцессу со степингом ядра B3, в котором ошибка была исправлена, наконец начались в сентябре 2007 г., однако готовые платформы поступили в продажу лишь ко II кварталу прошлого года. Приходится констатировать, что AMD потратила слишком много времени на внедрение архитектуры, содержащей множество улучшений, в серверный сегмент. Как минимум, был упущен момент государственных закупок и модернизации серверного парка крупных организаций к 2008 г., так как обычно они планируются и финансируются в конце предыдущего года. Системы на Barcelona были попросту не готовы.

Впрочем, судьба процессоров поколения K10 в целом оказалась незавидной, и корпорация AMD не слишком настаивала на их внедрении. Довольно высокое тепловыделение этих процессоров было очевидной проблемой, вынудившей маркетологов компании даже ввести термин ACP (средний уровень потребления) вместо традиционного TDP, означающего максимальный уровень. Учитывая растущий интерес к серверам для виртуализации, показатель производительности на ватт потребленной и выделенной в виде тепла энергии как никогда важен. Потому компания сконцентрировала все силы на ускорении выхода Opteron с ядром K10.5 (кодовое название Shanghai), изготовляемым по нормам 45-нанометрового техпроцесса. Эти модели были представлены в ноябре прошлого года – за полтора месяца до появления десктопных изделий с той же архитектурой и на целый квартал раньше запланированного срока.

На данный момент доступно 16 моделей Opteron Shanghai. Из них девять являются обычными CPU (5 CPU для двухпроцессорных систем и четыре – для более мощных серверов с четырьмя и восемью процессорами, у всех ACP равен 75 Вт, TDP – 95 Вт). Еще два (2386 SE и 8386 SE) работают на повышенной до 2,8 ГГц частоте и, соответственно, имеют увеличенный до 105 Вт ACP (119 Вт TDP), а пять оставшихся являются энергоэффективными моделями со сниженными до 2,1–2,3 ГГц частотами и ACP на уровне 55 Вт (TDP 68 Вт). Большое достоинство новых процессоров – возможность использования их для легкой модернизации уже развернутых систем: все они выпускаются в формфакторе Socket F.

Кроме простой миниатюризации техпроцесса, позволяющей снизить энергопотребление и повысить частоты, Shanghai содержит несколько архитектурных и функциональных улучшений по сравнению с Barcelona. Прежде всего отметим расширенный до 6 МБ объем кэша L3, благодаря которому в ряде случаев удается значительно увеличить быстродействие. Напомним, что процессоры с архитектурой K10 были снабжены всего 2 МБ кэша. Иерархия кэшей построена по идеологии AMD Balanced Smart Cache: 64+64 КБ L1 и 512 КБ L2 у каждого ядра для их максимальной производительности с независимыми потоками и 6 МБ L3 для быстрого обмена данными между ядрами в случае обработки связанных потоков.

Контроллер памяти Shanghai доработан с целью обеспечения поддержки регистровой памяти DDR2-800, что даст возможность еще больше улучшить не только производительность, но и масштабируемость при расширении конфигурации с каждым новым CPU. За обмен данными между процессором и чипсетом, а также между несколькими процессорами отвечает шина Hyper-Transport 3.0, работающая в режиме совместимости с HT 2.0 на частоте 1 ГГц, модели серии 2000 оснащены двумя линиями, а 8000 – тремя. В дальнейшем AMD планирует представить разъем Socket F+, который обеспечит поддержку HT 3.0 с частотой до 2,6 ГГц.

Для увеличения энергоэффективности процессоров AMD внедрила технологию Smart Fetch. Она состоит в том, что при полном простое ядра все содержимое его кэшей первого и второго уровней выгружается в L3, а самому ядру передается команда Halt, полностью его останавливающая. Таким образом, оно продолжает потреблять только токи утечки, не работая «вхолостую». Как и ранее, Shanghai содержит технологии Independent Dynamic Core (изменение тактовой частоты отдельных ядер в зависимости от загруженности) и CoolCore (отключение неиспользуемых логических блоков CPU).

Напомним, что процессоры с архитектурой K10 и, соответственно, K10.5 существенно превосходят изделия предыдущего поколения по быстродействию в расчетах с использованием инструкций SSE. Разрядность исполняющих блоков увеличена до 128 бит, и теперь не нужно разбивать операнды на 64-битовые, теряя такты. Кроме того, реализована возможность загрузки двух 128-битовых инструкций за такт. Shanghai не обзавелся поддержкой набора инструкций SSE4.1, однако реальная необходимость в этом сомнительна: серверное ПО развивается значительно медленнее десктопного, и передовые технологии в него проникают с большой задержкой. Зато в новой архитектуре была дополнена технология AMD-V, отвечающая за управление памятью при виртуализации. В ней появилась функция Rapid Virtualization Indexing, позволяющая перевести адресацию памяти для виртуальных машин с программной оболочки на сам процессор, увеличив производительность всех виртуальных машин, исполняемых на сервере.

Конфигурация стенда и тестирование

Для тестирования процессоров Intel Xeon была выбрана платформа Supermicro 8025C-3RB, оснащенная 16 ГБ FB-DIMM 667 МГц. Процессоры AMD Opteron устанавливались в сервер Supermicro 4041M-32R+B, оснащенный 16 ГБ регистровой памяти DDR2-800. Работа проводилась под управлением 64-разрядной ОС CentOS Linux 5.2 с MPI-интерфейсом LAM 7.1.2. Был использован пакет HPL Linpack, скомпилированный с соответствующими процессорам библиотеками линейной алгебры: Intel MKL 10.1.1.019 и AMD ACML 4.2.0, с размерностью матрицы 44000. Особенность этого пакета в том, что он замеряет быстродействие при вычислении формулы A(x)=b, что является отлично и без потерь распараллеливаемой задачей.

Результаты демонстрируют превосходство NUMA-архитектур при высокопроизводительных параллельных вычислениях в целом и архитектуры Opteron – в частности. Обратите внимание на то, что в одно- и двухпроцессорных конфигурациях CPU Intel работают быстрее Opteron за счет немного большей вычислительной мощности отдельных ядер. Тем не менее добавление еще двух процессоров радикально меняет ситуацию: большое количество параллельных процессов, каждому из которых в любой момент может понадобиться считать данные кэша другого ядра, а то и процессора, выявляет преимущества Opteron. Ситуация осложняется еще и тем, что для оценки четырехпроцессорного сервера Intel мы использовали шестиядерные Xeon E7450, оснащенные медленной шиной FSB 1066 МГц, которой просто недостаточно для всех ядер при такой нагрузке. Данные модели процессоров ориентированы в первую очередь на веб-серверы и системы виртуализации, где потоки обрабатывают несвязанные данные и не так часто возникает необходимость обмена содержимым кэшей. Что касается Barcelona, то эти процессоры показывают отличную, практически линейную масштабируемость во всех конфигурациях. Это делает их хорошим решением как для исполнения отдельных несвязанных потоков, так и для построения кластеров для HPC. Впрочем, стоит оговориться, что специфика серверных продуктов остается неизменной: перед выбором конкретной платформы всегда нужно оценить ее быстродействие в нужных вам задачах.

Редакция благодарит компанию Onix
за помощь в подготовке и проведении тестирования