Шесть против четырех:  перейдет ли количество в качество?

Тестирование

Позиционирование AMD Phenom II X6 не позволяет говорить о прямой конкуренции между данными процессорами и шестиядерным флагманом Intel Core i7 980X, однако целью нашего тестирования стало не привычное выяснение «кто быстрее». Вместо этого мы все же постарались оценить, насколько оправдано усложнение CPU в полтора раза для архитектур K10.5 и Nehalem.

Intel Core i7 980X

Для корректной оценки масштабируемости все протестированные модели фиксировались на частоте 3,33 ГГц, чтобы можно было рассматривать чистый прирост производительности. Кроме того, процессоры Intel испытывались как с активной, так и с выключенной технологией Hyper-Threa­ding. Для прямого сравнения реальных CPU, а не архитектур, все они также были протестированы в номинальных режимах со включенными Turbo Core и Turbo Boost (т. е. фактически в конфигурации «из коробки»). Испытание проводилось в среде Microsoft Windows 7 Ultimate x64, по возможности для приложений использовались их 64-битовые версии, поскольку во многих случаях они работают заметно быстрее. Мы постарались выбрать наиболее показательное ПО, которое может получить значительный прирост от увеличения количества ядер в CPU: тестовый пакет состоит из приложений разного рода, от теста ОЗУ в составе Everest Ultimate до пакета трехмерного моделирования 3DS Max 2011.

Подсистема памяти

AMD Phenom II X6 1090T Black Edition

Увеличение объема кэша третьего уровня в Intel Gulftown заметно сказалось на его быстродействии: латентность выросла с 42 до 48 тактов, что во временном выражении составило 4,7 нс против 3,8 нс у Bloomfield. Тем не менее потеря довольно невелика, если учитывать, что емкость при этом увеличена до 12 МБ, а для общего кэша именно объем во многих случаях играет решающую роль. Для сравнения, латентность L3 в AMD Thuban равна 7,6 нс, причем его на кристалле всего 6 МБ.

Интерфейс памяти в Intel Core i7 980X, конечно, на голову мощнее AMD Phenom II X6: три канала DDR3-1600 обеспечивают пропускную способность 15,8 ГБ/с против 9,1 ГБ/с у соперника (что интересно, у Bloomfield шина работает еще быстрее – 17,6 ГБ/с). Если в процессорах прошлых поколений скорость обмена данными с RAM практически не сказывалась на производительности в реальных приложениях (за редкими исключениями вроде архивирования или HPC-приложений), то для шестиядерных моделей этот показатель уже становится критичным. Можно констатировать, что у Gulftown с интерфейсом памяти все в порядке, а вот Thuban явно уже ограничен двухканальным контроллером: в процессе подбора оптимальных режимов для тестирования мы обнаружили, что переход с 1333 на 1600 МГц оказывает значительное влияние на все тестовые приложения, а не только на архиваторы. Таким образом, одним из главных требований к системе с AMD Phenom II X6 будет также установка быстрых модулей ОЗУ, а в идеале – еще и разгон шины HyperTransport.

Среди приложений, часто встречающихся в рабочих станциях и ПК, к наиболее оптимизированным под многопотоковое исполнение можно отнести пакеты трехмерного моделирования и графические редакторы, мультимедийные кодировщики, архиваторы. К сожалению, самая типичная нагрузка для ­пользовательских CPU такого клас­са – трехмерные игры – в основном не применяют многоядерных процессоров в полной мере, задействуя в лучшем случае два ядра.

3D-моделирование

Для тестирования новых CPU мы использовали четыре приложения, специально оптимизированных под многопотоковые среды: применяющий алгоритмы трассировки лучей POV-Ray 3.7, две версии приложения Cinebench, разработанного известной своим пакетом Cinema 4D компанией Maxon, и полноценное ПО для ­моделирования Autodesk 3DS Max 2011 с мощнейшим рендеринговым плагином V-Ray.

Все четыре теста показывают, что для такой модели использования много ядер не бывает: прирост от перехода с четырех на шесть вычислительных потоков в случае AMD составляет 15–49%, а на процессорах Intel – 32–51%. Кроме того, не стоит забывать и о технологии Hyper-Threading в Core i7: при ее активации процессор обрабатывает вдвое больше потоков, причем преимущество Gulftown над Bloomfield сохраняется на уровне 35–50%, однако рендеринг занимает на 15–25% меньше времени. Очевидно, 12 МБ кэша и трехканальной памяти DDR3 этим CPU более чем достаточно, чтобы не терять производительности даже при двукратном увеличении количества входящих данных. Что касается слабого прироста Phenom II X6 в 3DS Max, то, вероятнее всего, причина тому в большей оптимизации плагина V-Ray для архитектур Intel. Интерфейс памяти на результаты этого теста влиять не должен, поскольку ни один из объектов в нашей сцене не использует текстур. Эталоном же можно считать показатели в POV-Ray: и Thuban, и Gulftown с Hyper-Threading и без нее работают ровно в полтора раза быстрее, чем их четырехъядерные собратья.

Что касается сравнения продуктов Intel и AMD, то в данном случае вердикт однозначен: для такой модели применения Phenom II X6 – идеальный выбор. При равной стоимости с Core i7 930 в трех из четырех тестовых приложений Thuban обогнал Bloomfield с отрывом до 26%! Прекрасная иллюстрация оправданности политики AMD.

Мультимедийные кодировщики

Мы использовали популярный аудиокодек LAME для сжатия звукового файла из формата WAV в MP3, а также ставший де-факто стандартным для создания HD-видеороликов бесплатный кодировщик x264, являющийся одной из реализаций H.264/AVC.

Особенность цифровых аудиокодировщиков в том, что для работы их алгоритмов требуются последовательное чтение и анализ частотного тракта исходного аналогового файла, и напрямую параллелизации они не подлежат. Поэтому, если речь идет о кодировании одного аудиопотока, решающую роль играют оптимизация под конкретную архитектуру и тактовая частота. В данном случае можно констатировать, что Intel Nehalem является очевидным фаворитом – при равных частотах процессоры на ядрах Bloomfield и Gulftown справились со сжатием на четверть быстрее. Многоядерный CPU в данном случае принесет ускорение работы только если сжимать сразу несколько аудиопотоков одновременно (например, при оцифровке компакт-дисков или конвертировании DVD-дисков с несколькими звуковыми дорожками). В связи с этим в тесте LAME нет практически никакой разницы между шести- и четырехъядерными процессорами, и внимание стоит обратить лишь на тот факт, что традиционное превосходство CPU Intel в подобных задачах проявляется и тут: даже с учетом работы Turbo Core, повышающей тактовую частоту Thuban до 3,6 ГГц, флагман AMD уступает младшему Core i7.

Со сжатием видео все совсем по-другому, этот вид ПО очень хорошо реагирует на параллелизацию: и на платформе AMD, и на Intel кодировщик x264 получает почти 50% прироста производительности при переходе на шестиядерные процессоры, т. е. скорость работы масштабируется линейно. Интересны результаты Gulftown с Hyper-Threading: если эта технология включена, то Core i7 980X работает только на 40% быстрее Core i7 965 Extreme с той же частотой. Очевидно, накладные расходы на обслуживание дополнительных потоков снижают эффективность (хотя в данном случае это лишь занимательные наблюдения, так как включение HT на деле все равно ускоряет кодирование на 20–25%).

К сожалению, видеокодировщики – не самая подходящая задача для архитектуры AMD, по­этому даже с шестью ядрами AMD Phenom II X6 уступил в данном тесте Core i7 930. Причина тому известна давно: большинство кодеков получают отличный прирост производительности от инструкций SSE, набор которых разработан именно Intel, потому неудивительно, что на процессорах этой компании они исполняются намного быстрее, а у AMD с ними извечная проблема.

Игры и комбинирован­ная нагрузка

Наибольший интерес со стороны рынка ПК к мощным CPU всегда проявляли геймеры-энтузиасты, не жалеющие денег хотя бы ради малого роста частоты смены кадров на экране. К сожалению, современные игровые движки не способны задействовать большое количество ядер: чаще всего они генерируют два-три потока, да и те обычно ядро полностью не загружают. Яркий пример тому – Far Cry 2, довольно требовательная к производительности процессора игра. Несмотря на то что быстродействие CPU очень сильно сказывается на результатах теста (обратите внимание на провал AMD Phenom II – без оптимизаций под Intel тут не обошлось!), более четырех ядер движку явно не нужно: нет разницы не только между четырех- и шестиядерными моделями, но и даже между одними и теми же Core i7 со включенной Hyper-Threading и без нее. В других играх все еще плачевнее: степень загрузки ядер не дает выделить какого-либо фаворита.

При этом, что характерно, синтетические тестовые пакеты Futuremark 3DMark все же отдают пальму первенства именно новинкам, поскольку при расчете финального результата учитывается не только производительность CPU, но и количество потоков, которое он может обработать. К примеру, в 3DMark Vantage Core i7 980X с Hyper-Threading набрал почти на треть больше баллов, чем он же, но без этой функции. Интересны также результаты PCMark Van­tage: несмотря на ряд тестов, которые теоретически должны получать прирост от увеличения числа ядер, на деле шестиядерный Phenom II оказался на самом дне диаграммы, уступив даже своему «младшему брату».

Из неигрового ПО мы также протестировали новинки в Adobe Photoshop CS4 и ABBYY Finereader. Несмотря на то что Photoshop считается очень развитым пакетом, применяющим все современные технологии, подавляющее большинство встроенных фильтров в нем задействуют лишь одно ядро. При этом прямого соответствия между какой-либо характеристикой процессора и его быстродействием в Photoshop проследить нельзя: часть задач критична к емкости и скорости кэша, часть – к тактовой частоте, да и архитектурные особенности играют немаловажную роль.

В целом результат для AMD не слишком благополучный: хоть Phenom II X6 1090T и опередил Core i7 930, однако удалось это лишь благодаря технологии Turbo Core. Впрочем, нельзя забывать о сторонних фильтрах и надстройках для программных пакетов такого рода: они вполне могут раскрыть истинный потенциал новинок.

ABBYY Finereader оказалась одной из немногих использованных нами программ, не только задействовавших все шесть ядер в тестируемых процессорах, но и загрузивших их на 100%. Новый распознающий алгоритм в ее десятой версии отлично оптимизирован для многопотокового исполнения, потому результат тут также очень показателен: Intel Core i7 980X быстрее 965-й модели на той же частоте на 45%, а между процессорами AMD разница составила 40%. При этом Phenom II X6 1090T смог опередить Core i7 930, однако преимущество совсем невелико: алгоритмы Finereader также хорошо работают на Nehalem, извлекающем немалую пользу из Hyper-Threading.

Игорь Федорец,
старший маркетинг-менеджер по настольным OCR-продуктам ABBYY

КО: Насколько оправдана, по Вашему мнению, оптимизация ПО для многоядерных процессоров с количеством ядер более 4? Насколько сложна такая оптимизация с точки зрения разработки, требуется полное переписывание алгоритмов или она дается "малой кровью"?

ABBYY: Есть два метода оптимизации. Первый – микрооптимизация существующих алгоритмов для приведения их в состояние, когда они могут быть корректно распараллелены на несколько ядер. Задача эта сложна с точки зрения разработки и оправданна скорее для серверных приложений. Эффективность ее относительно невысока и, по нашему мнению, снижается при количестве ядер более 4. Второй метод – оптимизация макрозадач. В этом случае все задание разбивается на задачи высокого уровня, которые делятся между ядрами. Такая оптимизация требует особого проектирования алгоритмов, а не модернизации существующих, но эффективность ее очень высока. Применительно к ABBYY FineReader общая задача распознавания документа (в том числе и открытия изображений, и распознавания текста) может быть распараллелена до задач обработки отдельных страниц. Эффективность в этом случае растёт практически линейно с ростом числа ядер.

КО: Как Вы считаете, в случае появления массовых CPU с большим числом ядер насколько быстро появится соответствующее ПО?

ABBYY: По нашему мнению, программные продукты появятся приблизительно в течение года, но свое использование распространение получат, конечно, еще позже.

КО: Каково, по Вашим данным, соотношение между ПК с одно-, двух- и четырехъядерными процессорами среди пользователей FineReader?

ABBYY: К сожалению, пока точной такой статистики нет. Но мы оцениваем, что наибольшую часть компьютеров, на которых используется ABBYY FineReader, составляют 2-ядерные машины.

Итоги тестирования

Бесспорный вывод о том, оправданны ли шестиядерные процессоры (не говоря уж о будущих восьмиядерных и более) как типичные представители десктопного сегмента, сделать сложно. С одной стороны, при позиционировании данных моделей для домашнего применения становится очевидно, что подавляющему большинству пользователей попросту нечем будет раскрыть все их преимущества (по крайней мере на регулярной основе), да и выкладывать $999 за один только CPU Intel готовы единицы. Намного выигрышней здесь выглядят AMD Phe­nom II X6, благо и тактовая частота у них достаточно высока для неплохой производительности, и цена приемлемая. Тем не менее рассматривая эти модели в качестве возможной покупки, следует четко понимать, в чем можно раскрыть ее потенциал. В основном это тяжелое профессиональное ПО, однако в таком случае речь уже идет скорее не о ПК, а о рабочей станции, к которой требования могут быть более жесткими.

С другой стороны, очевидно, что рано или поздно любое ПО, хоть сколько-нибудь поддающееся параллелизации, будет оптимизировано под новые процессорные архитектуры с большим числом ядер. Еще не так давно мы по крупицам собирали тестовые приложения для оценки быстродействия двухъядерных CPU, сомневаясь, пришло ли их время, а сейчас уже одноядерные иначе как ущербными и не назовешь. Потому можно с уверенностью говорить, что перспективы на десктопном рынке у шестиядерных CPU есть, вопрос лишь в том, насколько они отдалены. В свете падения продаж настольных ПК и угасания интереса покупателей к ним, вероятнее всего, эти модели займут небольшую нишу в топовом сегменте, ориентированном на рабочие станции и высокопроизводительные ПК, однако так и останутся уделом энтузиастов.

Конфигурация тестового стенда
Процессоры AMD Phenom II X4 965 Black Edition
AMD Phenom II X6 1090T Black Edition
Intel Core i7 965 Extreme
Intel Core i7 980X
Материнские платы ASUS P6T Deluxe/OC Gear (Intel X58)
MSI 890FXA-GD70 (AMD 890FX)
Оперативная память Kingston KHX160003T1K3/3GX
Жесткий диск Kingston SSDNow V+ SNVP325-S2/128GB
Видеокарта ATI Radeon HD 5970
Блок питания Seasonic M12D-850 850 Вт
Монитор LG W3000H-BN
Продукты предоставлены
AMD Представительство AMD в Украине
Intel Представительство Intel в Украине
ASUS Представительство ASUS в Украине
MSI Представительство MSI в Украине
Kingston Представительство Kingston в Украине
LG Представительство LG в Украине
Seasonic «Синтекс», (044) 593-0201