Новый корейский NPU ускоряет ИИ на 60% и экономит 44% энергии

Опубликовал Олександр Федоткін

Корейские исследователи из Школы вычислений KAIST в сотрудничестве с HyperAccel Inc разработали новый нейронный процессор, который повышает производительность вывода генеративных моделей ИИ в среднем на 60%

Современные модели генеративного ИИ, в частности, ChatGPT-4 и Gemini 2.5 требуют не только высокой пропускной способности памяти, но и ее значительно большего объема. В связи с этим компании, которые управляют облачными генеративными ИИ, среди которых Microsoft и Google, закупают сотни тысяч графических процессоров NVIDIA.

Новый нейронный процессор, созданный корейскими исследователями, повышает производительность вывода данных генеративными моделями ИИ на 60% и уменьшает энергопотребление на 44%. Технология была предложена учеными под руководством профессора Чонсе Пака. Она разработана специально для облачных сервисов ИИ, таких как ChatGPT. 

На данный момент инфраструктура ИИ на базе графических процессоров требует как минимум несколько из них для обеспечения высокой пропускной способности и емкости. Технология корейских исследователей позволяет использовать меньшее количество нейронных процессоров для поддержки этой же инфраструктуры с помощью квантования KV-кэша. KV-кэш занимает большую часть используемой памяти. Таким образом квантование значительно снижает стоимость построения облачных сервисов генеративного ИИ.

Общая архитектура ускорителя Oaken/ACM

Новый NPU интегрируется с интерфейсами памяти без изменения алгоритма работы операционной системы на базе существующих архитектур. Он не только реализует механизм квантования KV-кэша, но и управляет памятью на уровне страниц, эффективно используя ограниченную пропускную способность и емкость памяти, а также вводит новые методы кодирования, оптимизированные для квантованного кэша KV. Ожидается, что этот NPU при создании инфраструктуры облачного генеративного ИИ за счет высокой производительности и низкого энергопотребления сократит эксплуатационные расходы. 

«Это исследование, проведенное в рамках совместной работы с HyperAccel Inc., нашло решение в алгоритмах облегченного вывода генеративного ИИ и успешно разработало базовую технологию NPU, которая может решить проблему памяти. Благодаря этой технологии мы реализовали NPU с производительностью, улучшенной более чем на 60% по сравнению с новейшими графическими процессорами, объединив методы квантования, которые снижают требования к памяти при сохранении точности вывода и оптимизированные для этого аппаратные конструкции», — отметил профессор Чонсе Пак. 

Результаты исследования опубликованы в журнале ACM

Источник: TechXplore