Новий корейський NPU пришвидшує ШІ на 60% та заощаджує 44% енергії — Depositphotos

Корейські дослідники зі Школи обчислень KAIST у співпраці з HyperAccel Inc розробили новий нейронний процесор, який підвищує продуктивність виводу генеративних моделей ШІ в середньому на 60%.

Сучасні моделі генеративного ШІ, зокрема, ChatGPT-4 та Gemini 2.5 вимагають не тільки високої пропускної здатності пам’яті, а й її значно більшого обсягу. У зв’язку з цим компанії, які керують хмарними генеративними ШІ, серед яких Microsoft та Google, закуповують сотні тисяч графічних процесорів NVIDIA.

Новий нейронний процесор, створений корейськими дослідниками, підвищує продуктивність виведення даних генеративними моделями ШІ на 60% та зменшує енергоспоживання на 44%. Технологію було запропоновано науковцями під керівництвом професора Чонсе Пака. Вона розроблена спеціально для хмарних сервісів ШІ, таких як ChatGPT.

На даний момент інфраструктура ШІ на базі графічних процесорів потребує щонайменше кілька з них для забезпечення високої пропускної здатності та ємності. Технологія корейських дослідників дозволяє використовувати меншу кількість нейронних процесорів для підтримки цієї ж інфраструктури за допомогою квантування KV-кешу. KV-кеш займає більшу частину пам’яті, яка використовується. Таким чином квантування значно знижує вартість побудови хмарних сервісів генеративного ШІ.

Новий NPU інтегрується з інтерфейсами пам’яті без зміни алгоритму роботи операційної системи на базі існуючих архітектур. Він не тільки реалізує механізм квантування KV-кешу, а й керує пам’яттю на рівні сторінок, ефективно використовуючи обмежену пропускну здатність і ємність пам’яті, а також вводить нові методи кодування, оптимізовані для квантованого кешу KV. Очікується, що цей NPU під час створення інфраструктури хмарного генеративного ШІ за рахунок високої продуктивності та низького енергоспоживання скоротить експлуатаційні витрати.

«Це дослідження, проведене в рамках спільної роботи з HyperAccel Inc., знайшло рішення в алгоритмах полегшеного виведення генеративного ШІ та успішно розробило базову технологію NPU, яка може вирішити проблему пам’яті. Завдяки цій технології ми реалізували NPU з продуктивністю, покращеною більш ніж на 60% порівняно з новітніми графічними процесорами, об’єднавши методи квантування, які знижують вимоги до пам’яті при збереженні точності виведення та оптимізовані для цього апаратні конструкції», — наголосив професор Чонсе Пак.

Результати дослідження опубліковані у журналі ACM

Джерело: TechXplore

ЧИТАЦЬКА ДУМКА

В матеріалі написана нісенітниця? Претендуєте на експертність? Не згодні з автором? Ви справжній ерудит? — Тоді дайте аргументну відповідь, яка не загубиться в коментарях! Для цього навіть не потрібна реєстрація. Але тут не пишуть коротко — тільки ґрунтовна думка, не менше 77 слів.