Производитель видеокарт и оборудования для дата-центров представил четыре ускорителя искусственного интеллекта. Устройства NVIDIA оптимизированы для работы на них различных вариантов ИИ – языковых моделей (LLM), таких, как ChatGPT, обработки видео с помощью ИИ, графических генеративных моделей, а также нейронных сетей и баз данных:

NVIDIA L4 для ИИ-видео – обеспечивает до 120 раз большую производительность обработки видео на основе ИИ, чем CPU, используя на 99% более высокой энергоэффективную архитектуру. Устройство служит универсальным графическим процессором для любой рабочей нагрузки, связанной с обработкой видео. Ускоритель предлагает расширенные возможности декодирования и перекодирования видео, потоковой передачи, дополненной реальности, ИИ-генерации видео и других смежных задач.
NVIDIA L40 для генерации изображений – платформа оптимизирована для создания и работы с двухмерной и трехмерной графикой с упором на технологии генеративного искусственного интеллекта. Устройство L40 служит ядром NVIDIA Omniverse, платформы для создания и эксплуатации приложений метавселенной, обеспечивая 7-кратное увеличение производительности вывода для Stable Diffusion и 12-кратное увеличение производительности Omniverse по сравнению с предыдущим поколением специализированных ускорителей для ЦОД.
NVIDIA H100 NVL – для развертывания больших языковых моделей LLM, таких, как ChatGPT. Устройство H100 NVL с ускорением Transformer Engine обеспечивает до 12 раз более высокую производительность логических операций GPT-3 по сравнению с предыдущим поколением A100 в масштабе центра обработки данных.
NVIDIA Grace Hopper – для рекомендательных графовых моделей, векторных баз данных и нейронных сетей. Благодаря соединению NVLink-C2C со скоростью 900 ГБ/с между CPU и GPU Grace Hopper может обеспечить в 7 раз более быструю передачу данных и запросов по сравнению с PCIe 5.0.

Представлен также комплект ПО, обеспечивающий работу ускорителей на программном уровне. Программный пакет NVIDIA AI Enterprise включает NVIDIA TensorRT, средство для разработки ПО для высокопроизводительных операций на основе глубокого обучения, а также NVIDIA Triton Inference Server, ПО с открытым исходным кодом, помогающее стандартизировать развертывание моделей.

Устройство H100 NVL является наиболее мощным в представленной линейке. Технически оно представляет собой комплект из двух видеоускорителей для центров обработки данных H100, разработанный специально для повышения производительности ChatGPT и других LLM.

Сокращение NVL означает использование технологии NVLink. H100 NVL является комплектом из двух «видеокарт» с интерфейсом PCIe, соединенных друг с другом через три моста NVLink Gen4.

Еще одно преимущество NVIDIA H100 NVL – объем памяти. Устройство использует шесть стеков памяти HBM3, предлагая в общей сложности 188 ГБ высокоскоростного буфера. Интересно, что такой объем указывает на использование 94 ГБ, а не 96 ГБ каждым H100.

NVIDIA H100 NVL использует 6144-битный интерфейс памяти (1024 бит для каждого стека HBM3), память работает на скорости до 5,1 Гбит/с. Ее максимальная пропускная способность составляет 7,8 ГБ/с, что более чем в два раза выше, чем у H100 SXM. Большие языковые модели требуют большого буфера памяти, пропускная способность также важна для скорости работы.