Несмотря на столь серьезные изменения десктопной платформы, Intel сейчас проявляет небывалую активность и в сегменте решений для рабочих станций и серверов. Однако создание новых технологий для профессионального сектора, как правило, сопровождается куда меньшей шумихой. Но это совсем не означает, что нововведения в них оказались менее значимыми, чем в настольных системах. Скорее даже наоборот.
Не так давно ведущий разработчик и производитель процессоров и чипсетов представил
миру совершенно новую десктопную платформу — Socket LGA775 и чипсеты с поддержкой
PCI Express. Сколько было споров по поводу целесообразности такого кардинального
шага… В сущности, сегодняшний девиз Intel для десктопных систем можно сформулировать
сле-дующим образом: "Чтобы платформа была эффективной, в ней должно быть
как можно меньше наслед-ственных элементов". Так что уже в ближайшее время
наши компьютеры полностью потеряют разъемы FDD, IDE, PCI, PC/2, LPT, COM, MIDI-port
и в итоге соответствующие контроллеры. Можно даже предположить, что очередной
процессорной шиной также станет PCI Express или ее закамуфлированный аналог.
Сравнительные характеристики чипсетов Intel |
Что в результате получится? А то, что северный и южный мосты будут содержать лишь
определенное количество линков PCI-E… и все (если не считать еще несколько последовательных
интерфейсов вроде SATA и USB). Наверняка подобное существенное упрощение позволит
снизить нагрузку на элементы чипсета, тем самым улучшив такие показатели, как
эргономичность, выход готовых изделий, стоимость и степень нагрева. О том, почему
статья начинается с разговора о десктопах, мы поговорим в выводах. А сейчас рассмотрим,
что же приготовила Intel для профессионалов.
Xeon (Nocona) — 64-битные Prescott?
![]() |
Supermicro X6DAL-TG (чипсет E7525) |
![]() |
Supermicro X6DH8-G2 (чипсет E7520) |
![]() |
Supermicro X6DVA-4G (чипсет E7320) |
Не скажем, чтобы новые Xeon были столь
же ожидаемыми, как их десктопные собратья Pentium 4 на ядре Prescott. Пожалуй,
имеет смысл еще раз повториться — в серверном сегменте отношение потребителей
к производительности значительно отличается от привычного "домашнепользовательского".
В первом случае быстродействие должно быть просто достаточным (!), а во втором
— обязательно максимальным. Да и круг задач, решаемых на рабочих станциях и серверах,
весьма далек от игр вроде 3D-шутеров на домашнем компьютере.
Xeon DP (Nocona) использует шину FSB с частотой 800 MHz, поддерживает технологию
Advanced Hyper-Threading и EM64T, Enhanced SpeedStep и набор мультимедийных ин-струкций
SSE3. Частоты для новых CPU варьируются в пределах от 2,8 до 3,6 GHz (как в десктопной
серии Socket 775), но и на этом сходство с ними не заканчивается. Если в предыдущем
поколении Xeon DP встречались модели с дополнительным кэшем третьего уровня, то
на данный момент такие процессоры на ядре Nocona не анонсированы. Обобщая все
вышесказанное, можно отметить, что модели CPU теперь равны по быстродействию и
спецификациям для разных категорий потребителей (рабочие станции и домашние компьютеры
имеют процессоры с одинаковыми возможностями). На самом деле момент весьма положительный
— так, в случае необходимости обычный Pentium 4 c индексом "F" может
"стать" 64-битным и служить основой для небольшого сервера или рабочей
станции. С другой стороны, рабочая машина дизайнера или проектировщика, построенная
на Xeon, не уступит хорошей десктопной системе в мультимедийных приложениях. Но,
видимо, чтобы совсем уж не "сводить" Xeon и Pentium 4 в один сегмент,
Intel решила произвести разделение платформ по чипсетам в зависимости от задач.
E7505, E7501 — даже классика со временем становится
раритетом
Экспансия Intel на рынок чипсетов для серверов и рабочих станций, по всей видимости, была вызвана нежеланием делиться огромной долей с компанией ServerWorks и, возможно, слабой производительностью "не своих" наборов логики. Как известно, требования к быстродей-ствию, в том числе и в серверном сегменте, постоянно растут в связи с появлением нового ПО, способного существенно повысить эффективность работы практически любой организации. ServerWorks, похоже, слишком "зациклилась" в свое время на надежности и монументальности, несколько забыв о производительности, чем Intel не замедлила воспользоваться.
В прошлом лидерами профессионального эшелона весьма долгое время оставались два набора логики — E7501 для серверов и E7505 для рабочих станций. Последний, кстати, ввиду большей функциональности и производительности также использовался и для построения серьезных серверных решений. Однако современными на сегодняшний день оба этих чипсета назвать никак нельзя: поддержка только памяти DDR266 и отсутствие портов SATA (а у E7501 и PCI-X) далеко не всегда позволяют им справляться с тяжелыми задачами. Более того, материнские платы на данных чипсетах "по-серверному" сложны, а следовательно, дороги и вряд ли подешевеют. Так что необходимость смены платформ давно назрела. Но глядя на новые E7520/25, становится понятно, почему Intel так долго тянула с их анонсом.
E7210/E7221 — даже десктопный чипсет может быть серверным
Чтобы лишний раз не вдаваться в подробности, заметим, что оба этих набора
логики являются прямыми аналогами своих десктопных собратьев: E7210 — не что
иное, как род-ственник i875P, а E7221 — почти копия i925X. E7210 с кодовым названием
Canterwood ES рассчитан на работу с процессором Pentium 4 (Northwood/Prescott)
c шиной 800 MHz. Он оснащен почти так же, как i875, — тем же двухканальным контроллером
памяти DDR400 с поддержкой PAT и коррекцией ошибок. Разница заключается лишь в
применении южного моста 6300ESB, опять-таки являющегося версией ICH5 с интегрированным
контроллером PCI-X 1.0 64/66, поддерживающим до четырех устройств. По официальной
информации, E7210 может работать только с Pentium 4, но на самом деле на рынке
доступны модели материнских плат с разъемами Socket 604 под Xeon и их дуальные
версии (как несложно догадаться, родоначальником таких моделей была компания ASUS).
О Е7221 стоит рассказать подробнее. Как мы уже упоминали, он "подозрительно похож" на 925X, но позиционируется большей частью как основа для системы с 64-битным Pentium 4 и, соответственно, 64-битной ОС. Первое серьезное отличие — использование линков PCI Express, ранее служивших интерфейсом внешнего графического контроллера, для подключения PCI-X-контроллера нового поколения 6702PXH (133 MHz) с полосой пропускания 1 GBps. Также значимым событием является первое применение DDR2-533 и южного моста ICH6R (причем со всеми сопутствующими функциями вроде High Definition Audio) в серверном сегменте.
E7520/7525: славное продолжение традиций
На самом деле эти чипсеты дей-ствительно новые и не позволяют проводить
никаких аналогий ни с E7501/05, ни с i875/925X. Оба поддерживают только регистровую
память как DDR2-400, так и DDR266/333 при 128-битном доступе. Максимальный объем
DDR2-памяти пока составляет 16 GB против 32 GB в случае использования DDR266 (и
в том и другом случае можно устанавливать до четырех модулей на каждый канал).
Одна из отличительных черт новых наборов логики — существенное повышение функциональности
и производительности подсистемы памяти (чего так не доставало предшественникам).
Во-первых, появился режим работы памяти, аналогичный RAID 1 для дисковых подсистем,
когда ее доступный объем будет в 2 раза меньше, но с вдвое увеличенной надежностью.
Значительно расширены возможности по диагностике и устранению ошибок памяти —
технология Intel x4 Single Device Data Correction (x4 SDDC). Теперь реализованы
коррекция 4-битных ошибок и определение 8-битных. Для E7520 предусмотрена еще
и горячая замена модулей памяти.
Отличия между E7525 и E7520 на самом деле минимальны и носят скорее косметический характер. Как сообщается в официальных спецификациях, первый оптимизирован для использования в качестве основы для рабочих станций, в связи с чем оснащен портом PCI Express x16. E7520 имеет два порта PCI-E x8 либо четыре x4. В качестве южных мостов возможны два варианта — либо ICH5R, либо вышеописанный 6300ESB.
Выпущен также чипсет E7320 — упрощенная версия E7520, реализующая интерфейс PCI-X с помощью южного моста 6300ESB и оснащенная меньшим количеством слотов PCI-E.
Конфигурации тестовых систем |
||
Процессор | 2xIntel Xeon DP (Prestonia) 3,20 GHz |
2xIntel Xeon DP (Nocona) 3,20 GHz |
Кэш | L2 — 512 KB, L3 — 1024 KB |
L2 — 1024 KB |
Материнская плата |
ASUS PC-DL Deluxe (чипсет Intel i875P) |
ASUS NCCH-DL (чипсет Intel i875P) |
Память | Kingston KVR400X72C (DDR400 ECC) 4×512 MB | |
Режимы тестирования памяти |
333 MHz, ECC |
400 MHz, ECC |
Видеокарта | PNY Quadro FX3000 256 MB | |
Жесткий диск |
Western Digital WD1600 160 GB 7200 об/мин | |
ОС | Windows XP Professional SP2, DirectX 9.0c |
Особенности тестирования
Думаем, изначально понятно, что низкоуровневое тестирование процессоров
класса Xeon было бы практически бесполезным. CPU, рассчитанные на работу в составе
SMP-систем, в отрыве от общей конфигурации на быстродействие влияют незначительно:
теоретическая производительность вычислительных блоков или кэшей, как правило,
будет далеко не самой главной составляющей в общем быстродей-ствии сервера или
рабочей станции. Здесь на первый план выходят тип и производительность процессорной
шины, логика работы чипсета с несколькими CPU (тем более когда есть логические
процессоры), принципы доступа к памяти и т. д.
В ходе продолжительной работы с предыдущими поколениями Xeon DP были отмечены несколько интересных закономерностей, о которых мы хотели бы рассказать. Первое — при установке одного CPU Xeon включение Hyper-Threading в подавляющем большинстве случаев ощутимо ускоряло работу многопоточных приложений. Но когда логических процессоров становилось четыре (два физических CPU с включенным HT), производительность, как правило, снижалась по сравнению с выключенным HT. Второе — наличие кэша третьего уровня увеличивало вычислительную мощность при включении HT (при одном CPU) и замедляло снижение скорости в данной ситуации (если установлено два CPU). Третье — более быстрая подсистема памяти также несколько увеличивает влияние логических процессоров на скорость работы. Не углубляясь в технические детали, заметим, что наблюдения проводились длительное время и в большом количестве приложений, поддерживающих SMP (причем как в тестовых, так и в реальных). Так что попробуем рассмотреть несколько гипотез, позволяющих объяснить вышеупомянутые "нюансы работы Hyper-Threading в многопроцессорных системах".
Первый момент мы обсуждали еще тогда, когда появилось ядро Prescott. Обслуживание большого числа одновременно выполняемых задач, значительно превышающего количество логических процессоров в системе (а это почти всегда так), приводит к необходимости переключения CPU между процессами. На эти переключения тратится достаточно много времени, что зачастую нивелирует выигрыш от включения Hyper-Threading. Как известно, в SMP-системах от Intel все CPU находятся на одной общей шине, пропускная способность которой для предыдущих Xeon DP/MP не превышала 4,2 GBps (533 MHz). Невысокая скорость работы шины памяти серверных чипсетов (максимум те же 4,2 GBps) при значительной латентности также подчеркивала необхимость включения HT в случае установки более одного Xeon.
Больший кэш (L3 объемом 1 или 2 MB) увеличивает вероятность того, что данные, требующиеся для "мелких" процессов, могут находиться в области быстрой памяти. В связи с этим логическому CPU нужно несколько меньше времени для выполнения операций. Приведем простой пример: Xeon MP в своем нынешнем варианте имеет кэш объемом 4 MB, необходимость в котором объясняется вышеописанными фактами. Для того чтобы четыре процессора, установленные на одну шину 400 MHz и работающие с памятью на частоте 100 MHz, получили хоть сколько-нибудь заметный прирост производительности от 3-гигагерцевого процессора (самая высокая частота для Xeon MP), действительно необходим очень "вместительный" кэш.
В свете всего этого мы решили оценить эффект от включения Hyper-Threading на двухпроцессорных системах разного поколения с Xeon DP 3,2 GHz (конфигурации тестовых систем указаны в таблице). Безусловно, сравнение серверных процессоров с различными ядрами на "неофициальных" дуальных материнских платах с чипсетом i875P выглядит несколько искусственным. Однако пока это единственная возможность сравнить CPU с ядрами Prestonia и Nocona на одинаковых наборах логики.
Сравнительные характеристики процессоров Xeon DP |
||
Ядро | Prestonia | Nocona |
Разъем | Socket 604 |
Socket 604 |
Процессорная шина |
533 MHz |
800 MHz |
L1-кэш | 8 KB |
16 KB |
L2-кэш | 512 KB |
1024 KB |
L3-кэш | 1 MB — 3,06/3,20 GHz 2 MB — 3,20 GHz |
— |
Поддержка Hyper-Threading |
+ | + |
Поддержка EM64T |
— | + |
Дополнительные инструкции |
MMX, SSE, SSE2 |
MMX, SSE, SSE2, SSE3 |
Модели | 2,0 GHz, 2,4 GHz, 2,66 GHz, 2,80 GHz, 3,06 GHz, 3,20 GHz |
2,8 GHz, 3,0 GHz, 3,2 GHz, 3,4 GHz, 3,6 GHz |
Результаты тестирования
![]() |
![]() |
![]() |
![]() |
Итак, основная задача данного тестирования
состоит в том, чтобы показать принципиальные отличия разных поколений систем при
работе с SMP-приложениями с включенной поддержкой Hyper-Threading. Более детальное
тестирование готовых конфигураций с подробным описанием поставленных задач содержится
в следующей статье этого номера.
Стандартный тест, отображающий совокупную производительность процессора, чипсета и подсистемы памяти в многопоточных задачах, — архивирование с помощью 7-zip. И сразу же видны противоположные результаты от включения логических CPU. Xeon Prestonia, даже оснащенный кэшем третьего уровня, ухудшил свои показатели на 10 с после включения HT, в то время как Nocona уменьшил время исполнения теста почти на треть минуты.
Как можно заметить, измерение скорости рендеринга в популярных пакетах 3D-моделирования тоже продемонстрировало весьма интересные результаты. Так, в рендеринге 3ds MAX 5.1 (BRAZIL) добавление логических CPU для системы, построенной на Xeon Prestonia, остается незамеченным — 3 с разницы можно смело списать на погрешность измерений. Вместе с тем новые Xeon улучшили свои показатели на полторы минуты (10%), что уже само по себе весьма высокий результат.
Система визуализации в Maya 6.0, как видно, способна использовать HT даже в предыдущих версиях Xeon DP. Однако разница между этими "добавками" от включения HT для Prestonia и Nocona составила минуту (15%) в пользу последнего.
Тест медиакодирования с использованием Windows Media Encoder показывает максимальное замедление в случае применения HT в системе с процессорами на FSB 533 MHz, добавляя почти минуту к времени выполнения задачи. Вместе с тем Nocona практически не ухудшает своих показателей.
Подведение итогов
Удивительно, но при продвижении новых 90-нанометровых процессорных ядер
Intel не уделяла повышенного внимания существенно переработанной технологии Hyper-Threading.
И, на наш взгляд, совершенно напрасно. Как мы могли убедиться, Hyper-Threading
в Xeon весьма отличается от десктопного по влиянию на производительность. Для
Xeon MP включение дополнительных логических CPU вообще противопоказано (более
того, многие производители 4-процессорных серверов официально рекомендуют этого
не делать), для систем с двумя Xeon DP (Prestonia) в совокупности прирост быстродействия
от HT можно считать нулевым (в некоторых случаях даже отрицательным). Nocona,
похоже, — первое ядро, способное реализовать преимущества Hyper-Threading на
многопроцессорных системах. Причин тому несколько — это и увеличенная до 800
MHz частота шины FSB, и удвоенные кэши L1 и L2, и более скоростные чипсеты и подсистема
памяти, ну и, конечно же, переработанная архитектура самого процессора. При этом
не следует также забывать о возможности работы новых Xeon с 64-битными ОС.
В этот раз Intel пришлось сделать очередной рывок — не в последнюю очередь из-за наличия очень активного конкурента. Если вспомнить появление десктопной платформы (переход от Socket 748 на Socket 775), то там изменения касались прежде всего функциональности, а не быстродействия. В новых же серверных системах — скорее наоборот, основную ставку сделали на производительность. Достаточно совсем небольшого опыта общения с SMP-системами, чтобы заявить о том, что быстродействие двух Xeon (Nocona 800 MHz) 2,8 GHz с чипсетом E7520 и памятью DDR2-400 окажется значительно выше Xeon (Prestonia 533 MHz) той же частоты 2,8 GHz с чипсетом E7501 и памятью DDR266.
Также наблюдается сближение "профессиональных" и "массовых"
платформ. Наверное, в недалеком будущем серверные системы будут отличаться от
десктопных в основном количеством процессорных разъемов и линков PCI-E в мостах
чипсетов. Новый графический интерфейс — это только первое масштабное применение
технологии PCI Express — возможно, она станет единым внутренним интерфейсом большинства
компьютеров. А нам остается только похвалить Intel за серьез-ный прорыв в создании
платформ для рабочих станций и серверов, а также за то, что благодаря этому закончилась
эра архаичных моделей E7501/05.
Оборудование для подготовки материала предоставлено |
||
Процессоры Intel Xeon |
"Оникс" | www.onix.kiev.ua |
Материнские платы Supermicro |
||
Материнские платы ASUS |
"Технопарк" | (044) 238-8990 |
Видеокарта PNY Quadro |
"Евро Плюс" | (044) 249-3741 |
Модули памяти Kingston |
"Небеса" | (044) 490-3577 |
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: