Обзоры Обзоры 05.09.2008 в 14:20 comment

NVIDIA GeForce GTX 200: имидж — наше всё?

author avatar
https://secure.gravatar.com/avatar/2f8d57cddfeb455ba418faa11ee01bb0?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://secure.gravatar.com/avatar/2f8d57cddfeb455ba418faa11ee01bb0?s=96&r=g&d=https://itc.ua/wp-content/uploads/2023/06/no-avatar.png *** https://itc.ua/wp-content/themes/ITC_6.0/images/no-avatar.svg

ITC.UA

автор

С момента появления первых видеокарт NVIDIA, основанных на унифицированной графической архитектуре, прошло целых 20 месяцев, а принципиально новых разработок от калифорнийского разработчика все не было. На форумах уже стали появляться возмущенные энтузиасты, уставшие от постоянной практики компании немного изменять частотные характеристики или количество функциональных блоков и таким образом получать «новые» видеокарты. Честно говоря, нам тоже несколько надоело тестировать фактически одни и те же видеокарты с разными названиями, заранее зная результаты тестирований. И вот, наконец, NVIDIA представила второе поколение своей графической архитектуры, значительно улучшенное и ускоренное.

Первыми GPU, в которых новая разработка воплотилась в кремнии, стали чипы GT200, устанавливающиеся в видеокарты GeForce GTX 280 и GTX 260. О самих видеокартах мы расскажем чуть ниже, а пока остановимся подробней на новой архитектуре.

NVIDIA GeForce GTX 200: имидж - наше всё?

Как и первое поколение архитектуры (GPU G80-G92), GT200 построен с использованием схемы SPA (Scalable Processor Array), т.е. состоит из нескольких идентичных функциональных блоков. Путем добавления или уменьшения количества этих блоков можно получить GPU других ценовых категорий, что мы и наблюдали почти 2 года.

GPU, построенные по архитектуре SPA, состоят из нескольких идентичных функциональных блоков – Texture Processing Clusters. Те, в свою очередь, состоят из нескольких массивов Streaming Multiprocessor, представляющих собой 8 вычислительных ядер – Streaming Processors. Кроме того, SM оборудован блоками адресации и фильтрации текстур.

NVIDIA GeForce GTX 200: имидж - наше всё? Графическая архитектура ядра NVIDIA GT200

NVIDIA GeForce GTX 200: имидж - наше всё?Фотография ядра GT200

NVIDIA GeForce GTX 200: имидж - наше всё?Размещение элементов в ядре GT200

Количественные изменения в архитектуре GT200 состоят в том, что теперь в TPC может входить не 2, а 3 мультипроцессора, а весь GPU может состоять из 10, а не 8 TPC. Таким образом, максимальное количество потоковых процессоров, которые и представляют собой «лошадиные силы» видеокарты, увеличилось со 128 в G8x/G9x до 240 в чипах GT200. При правильно написанном коде прирост производительности, соответственно, будет практически двукратным.

 NVIDIA GeForce GTX 200: имидж - наше всё?Texture Processing Cluster

Еще одно значительное нововведение, которое позволит значительно увеличить производительность при повторной обработке одних и тех же вершин разными шейдерами или параллельной обработке их разными процессорами – появление локальных кэшей емкостью 16 КБ в мультипроцессорах и кэша L1 в TPC. Теперь, если один из SP запрашивает доступ к данным, имеющимся в распоряжении другого SP в рамках мультипроцессора, ему не нужно обращаться к диспетчеру и ждать загрузки из оперативной памяти, stream out будет произведен прямо в локальный кэш. Аналогично и в ситуации, если данные запрашивает другой мультипроцессор: он сможет их считать из кэша L1, а не из более медленного кадрового буфера. Кроме того, введен и кэш L2 для нужд текстурных блоков, который значительно уменьшит задержки при мультитекстурировании.

Несмотря на то, что NVIDIA, подобно ATI, смещает приоритет с текстурной производительности в скорость исполнения шейдеров, текстурные блоки также не остались в стороне. В GPU G80 текстурные блоки могли отфильтровать 64 текселя за такт, адресовать 32 текселя либо осуществить билинейную фильтрацию 32 пикселей. В GPU G92 текстурные блоки уже могли обрабатывать по 64 текселя с билинейной фильтрацией при 8-битной разрядности либо 32 текселя при использовании текстур FP16 для HDR. В GT200 их производительность не увеличилась, однако за счет увеличения количества кластеров с 8 до 10 суммарная скорость работы с текстурами увеличилась до 80 пикселей за такт. При этом за счет доработанного диспетчера реальная производительность в мультитекстурировании увеличилась c 76.2% до 93.1% от теоретической, достигнув 48266 MTps. Кроме того, модернизацией блоков растеризации (ROP) NVIDIA добилась возможности полноскоростного блендинга: теперь возможна удвоенная скорость блендинга при выводе 8-битных пикселей, что при наличии 8 блоков ROP в GeForce GTX 280 дает производительность в 32 пикселя за такт.

Онлайн-курс "Створення електронної музики" від Skvot.
Практичний курс про те, як знайти власний стиль та написати й зарелізити свій перший трек.
Програма курсу і реєстрація

Среди других нововведений отметим удвоенный объем регистрового файла, что позволяет очень значительно увеличить производительность при расчете длинных шейдеров и возможность исполнения ядром одновременно двух инструкций (dual-issue). Учитывая, что разработчики игровых движков все чаще прибегают к созданию сложных шейдеров с ветвлениями в своих продуктах, могут возникать ситуации, когда регистровый файл не вмещает все данные, и их приходится выгружать в память видеокарты. Это сильно замедляет обработку. Что касается dual-issue, то эффект от этого нововведения в реальных трехмерных приложениях увидеть будет довольно сложно, а вот в потоковых вычислениях силами GPU (Folding@Home, кодирование видео и т.п.) эффект будет иметь место. Суть его состоит в том, что каждый мультипроцессор, кроме 8 вычислительных ядер, содержит специальный блок (Special Function Unit, SFU), который способен выполнять сложные инструкции, интерполяцию и умножение (инструкция MUL). Учитывая, что за один такт один SM может выполнить одну инструкцию умножения и сложения (MAD, т.е. MUL+ADD), а SFU за этот же такт выполнит еще одну инструкцию MUL, можно говорить о практически двукратном приросте производительности в определенных условиях.

NVIDIA GeForce GTX 200: имидж - наше всё?Функциональная схема GT200 в режиме потоковых вычислений

NVIDIA GeForce GTX 200: имидж - наше всё? Возможные области применения видеокарт для расчетов

Графический процессор NVIDIA GT200 разрабатывался не только для обработки трехмерной графики, но и для реализации вычислений силами GPU посредством программного обеспечения CUDA. В результате ядро имеет два режима работы – графический и вычислительный, переключение между которыми производится драйвером. GPU способен производить вычисления с точностью до 64 бит, что значительно повышает полезность новых видеокарт для научных целей по сравнению с G80/G92, которые работали в 32-битном диапазоне. Список возможных способов применения приведен на иллюстрации, от себя же заметим, что специализированные клиенты распределенных вычислений Folding@Home и бета-версия утилиты для кодирования видео Elemental Badaboom просто поражают скоростью расчетов.

Перейдем от теории к практической части.

В данный момент на базе графического процессора GT200 производятся две видеокарты: GeForce GTX 280 и GeForce GTX 260. Первая позиционируется как топовое решение в линейке NVIDIA, вторая заполняет разрыв между первой и ближайшей с точки зрения производительности одиночной видеокартой прошлого поколения – GeForce 9800GTX+. Отметим, что в ассортименте NVIDIA имеется еще GeForce 9800GX2, однако эта двухчиповая видеокарта довольно специфична и напрямую с новинками не конкурирует.

Характеристики новичков следующие:

NVIDIA GeForce GTX 200: имидж - наше всё?

В нашей тестовой лаборатории побывали видеокарты от компании Zotac – Zotac AMP! GeForce GTX 280 и GTX 260, причем в двух экземплярах, что дало нам возможность оценить их производительность и в режиме SLI. Отметим, что, поскольку это тестирование именно архитектуры GeForce GTX 200, а не конкретных видеокарт, частоты предоставленных моделей снижались до номинальных (Zotac AMP! предразогнаны до очень высоких значений, один из лучших мировых показателей для воздушного охлаждения).

NVIDIA GeForce GTX 200: имидж - наше всё?GeForce GTX 280

NVIDIA GeForce GTX 200: имидж - наше всё?
GeForce GTX 280 без кулера, лицевая сторона

NVIDIA GeForce GTX 200: имидж - наше всё?GeForce GTX 280 без кулера, обратная сторона

NVIDIA GeForce GTX 200: имидж - наше всё?
GeForce GTX 260

Cразу заметим, что размеры (длина 270 мм) и тепловыделение GeForce GTX 280 вряд ли позволят установить эту видеокарту в корпус с плотной компоновкой и слабой вентиляцией. Для питания старшей модификации понадобятся два разъема от блока питания: один с 8 контактами, другой с 6, при этом, если подключить 2х6pin, видеокарта работать не будет. Для GeForce GTX 260 достаточно двух шестиконтактных коннекторов. Под нагрузкой температура GPU в GeForce GTX 280 достигает 76 градусов при температуре в помещении 21 градус благодаря сложному радиатору, продуваемому турбиной довольно большого диаметра. За счет меньшего числа функциональных блоков GeForce GTX 260 греется меньше: максимум, до которого мы смогли разогреть ядро, составил 71 градус.

Онлайн-курс "Створення електронної музики" від Skvot.
Практичний курс про те, як знайти власний стиль та написати й зарелізити свій перший трек.
Програма курсу і реєстрація

Кадровый буфер объемом 1 ГБ на GeForce GTX 280 набран посредством 16 микросхем, по 8 с каждой стороны печатной платы. С лицевой стороны они охлаждаются кулером, а вот расположенные на обратной стороне платы чипы отдают тепло на заднюю крышку кожуха. В результате после продолжительной нагрузки корпус видеокарты довольно сильно нагревается. Обратите внимание, что NVIDIA снова выделила блок RAMDAC в отдельный чип NVIO, а также на чрезвычайно сложные цепи питания, нуждающиеся в принудительном охлаждении. Нереференсный кулер на замену найти будет сложно.

Обратимся к тестированию. Мы оценили производительность новинок как в одиночной работе, так и в массиве SLI в следующих тестовых приложениях: Futuremark 3DMark06, Crysis 1.2.1, Unreal Tournament 1.2, Quake 4 1.4.2. Последние два теста запускались с помощью утилит HardwareOC Benchmark в разрешениях 1024х768, 1280х1024, 1600х1200 и 1920х1200 с максимальными настройками качества, сглаживанием 8x и анизотропной фильтрацией 16x. Мы специально не использовали 3DMark Vantage, поскольку с выходом новых видеокарт и драйверов ForceWare и интегрированными драйверами CUDA один из процессорных тестов в этом пакете стал исполняться на GPU, что не дает возможности адекватно сравнивать результаты в этом пакете. Мы вернем этот тест, как только Futuremark выпустит обещанный патч, форсирующий исполнение теста центральным процессором.

NVIDIA GeForce GTX 200: имидж - наше всё?
NVIDIA GeForce GTX 200: имидж - наше всё?
NVIDIA GeForce GTX 200: имидж - наше всё?NVIDIA GeForce GTX 200: имидж - наше всё?

Результаты тестирования очень четко показывают, что подавляющему большинству пользователей, у которых установлены мониторы с диагональю 19-24”, производительности GeForce GTX 260 в современных играх будет хватать с головой. В нашем случае во всех тестах стенду не хватало производительности процессора (а это Core 2 Quad Q9450 с 12 МБ кэша L2 на частоте 3.8 ГГц). Лишь в самых тяжелых режимах (1600х1200 в Crysis и 1920×1200 в двух других играх) прирост производительности от установки второй видеокарты оказывался на ожидаемом уровне в 70-80%.

То же самое можно сказать и про отрыв новых видеокарт от бывшего «царя горы» — GeForce 9800GTX: он достигает адекватных значений только по мере устранения бутылочного горлышка в виде процессора на высоких разрешениях. Таким образом, если вы решите все же приобрести новую видеокарту NVIDIA на смену бывшему флагману, будьте готовы к тому, что для видимого эффекта от апгрейда понадобиться купить еще и монитор диагональю 24” с разрешением 1920×1200, а лучше 27” (это, впрочем, отдельный разговор). Можем с уверенностью констатировать, что на сегодняшний день соотношение прогресса графических процессоров и прогресса игровых движков явно не в пользу последних. Ни одна из современных игр (даже пресловутый Crysis) не требует топовых видеокарт для обеспечения нормальной производительности. Видимо, именно потому разработчики GPU развили такую бурную деятельность по продвижению идеи GPGPU – вычислений силами видеокарт.

Таким образом, итог тестирования следующий: у NVIDIA получилось наконец серьезно модернизировать свою графическую архитектуру, значительно увеличив производительность одночиповых видеокарт. Проблема заключается в другом: для раскрытия потенциала этих видеокарт необходим процессор, которого не существует в природе, единственный выход – серьезный разгон CPU, для которого понадобится хороший кулер, качественная материнская плата и т.д. Кроме того, высокая цена GeForce GTX 280 (более $525 в киевской рознице на сегодня), энергопотребление на уровне 270-280 Вт в нагрузке и малые объемы поставок делают эти графические акселераторы выбором настоящих маньяков, выжимающих из своих компьютеров все соки. Фактически же перед нами имиджевый продукт, одновременно делающий первый серьезный шаг на новый рынок высокоскоростных вычислений.

С GeForce GTX 260 все значительно лучше: этот продукт обеспечивает отличный уровень производительности, не сильно отличающийся от топовой модели и достаточный для абсолютно любой игры на рынке. Кроме того, стоят эти видеокарты аж на $200 дешевле, что делает их отличным выбором для построения топовой игровой платформы.

Конфигурация тестового стенда
Материнская плата ASUS Striker II Extreme Технопарк
Процессор Intel Core 2 Quad Q9450 @3800 МГц ASBIS
Кулер Zalman CNPS-9700LED  
Оперативная память Kingston HyperX 2×1 ГБ DDR3-1333  
Жесткий диск Samsung HD501LJ (500 ГБ, SATA-II, режим SATA-AHCI) Представительство Samsung в Украине, www.samsung.ua
Блок питания Zalman ZM1000-HP  Nebesa
Видеокарты Zotac AMP! ZT-X28E3LA-FC ELKO Киев
  Zotac AMP! ZT-X26E3KA-FCP ELKO Киев
  Zotac AMP! ZT-98XES2P-FCP "Квазар-Микро"
Монитор Samsung SyncMaster 275T Представительство Samsung в Украине, www.samsung.ua
ОС и драйверы ОС Microsoft Windows Vista Ultimate SP1, драйверы: NVIDIA ForceWare 177.41, NVIDIA nForce 18.07  

Благодарим компанию ASBIS Ukraine за помощь в организации тестирования.


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: