Depositphotos
Є шанс, що дефіцит пам’яті відкладається: Google Research представили TurboQuant — алгоритм стиснення, який скорочує обсяг пам’яті, необхідної для великих мовних моделей (LLM), одночасно підвищуючи швидкість і зберігаючи точність та якість результатів.
TurboQuant спрямований на зменшення розміру кешу “ключ-значення”, який Google порівнює з “цифровою шпаргалкою”, що зберігає важливу інформацію, аби не обчислювати її повторно. Ця шпаргалка необхідна тому, що LLM насправді нічого не знають — вони лише вдало імітують знання завдяки векторам, що відображають семантичний зміст токенізованого тексту.
Коли два вектори схожі, це означає їхню концептуальну близькість. Багатовимірні вектори, що можуть мати сотні або тисячі вкладень, описують складну інформацію — наприклад, пікселі зображення або великий масив даних. Вони також займають багато пам’яті й роздувають кеш “ключ-значення”, що стає вузьким місцем для продуктивності.
Щоб зробити моделі менш ресурсоємними, розробники застосовують техніки квантування для роботи з нижчою точністю. Недолік у тому, що результати погіршуються — якість оцінки токенів знижується. За ранніми результатами Google, TurboQuant забезпечує 8-кратне підвищення продуктивності та 6-кратне скорочення використання пам’яті в деяких тестах без втрати якості.
Застосування TurboQuant до моделі ШІ відбувається у два етапи. Для досягнення якісного стиснення Google розробив систему під назвою PolarQuant. Зазвичай вектори в моделях ШІ кодуються за допомогою стандартних координат XYZ, але PolarQuant перетворює їх у полярні координати в декартовій системі. На цій круговій сітці вектори зводяться до двох елементів: радіуса (сила основних даних) і напрямку (значення даних). PolarQuant виступає мостом високоефективного стиснення, перетворюючи декартові вхідні дані на компактне полярне “скорочення” для зберігання й обробки.
Google наводить цікаву аналогію з реального світу. Координати вектора подібні до вказівок маршруту: традиційне кодування виглядало б як “Пройдіть 3 квартали на схід, 4 квартали на північ”. А в декартових координатах — просто “Пройдіть 5 кварталів під кутом 37 градусів”. Це займає менше місця й позбавляє систему від ресурсоємних кроків нормалізації даних.
PolarQuant виконує основну частину стиснення, але другий крок усуває шорсткості. Попри ефективність PolarQuant, він може породжувати залишкові похибки. Google пропонує згладжувати їх за допомогою техніки під назвою Quantized Johnson-Lindenstrauss (QJL). Вона застосовує 1-бітний шар корекції похибок до моделі, зводячи кожен вектор до одного біта (+1 або −1) зі збереженням ключових векторних даних, що описують взаємозв’язки. Результатом є точніша оцінка уваги — фундаментальний процес, за допомогою якого нейронні мережі визначають, які дані важливі.
Чи працює вся ця математика? Google стверджує, що протестував нове алгоритмічне стиснення на наборі бенчмарків для довгого контексту з використанням відкритих моделей Gemma та Mistral. TurboQuant нібито показав ідеальні результати в усіх тестах, скоротивши використання пам’яті кешу “ключ-значення” у 6 разів. Алгоритм може квантувати кеш до 3 бітів без додаткового навчання, тобто його можна застосовувати до вже існуючих моделей. Обчислення оцінки уваги з 4-бітним TurboQuant також є у 8 разів швидшим порівняно з 32-бітними неквантованими ключами на прискорювачах NVIDIA H100.
У разі впровадження TurboQuant міг би зробити моделі ШІ дешевшими в роботі й менш ненажерливими до пам’яті. Втім, компанії, що створюють цю технологію, також можуть використати звільнену пам’ять для запуску складніших моделей. Найімовірніше, матиме місце поєднання обох підходів, однак мобільний ШІ може отримати більшу користь. З огляду на апаратні обмеження смартфонів, техніки стиснення на кшталт TurboQuant здатні покращити якість результатів без надсилання ваших даних у хмару.
TurboQuant та споріднені техніки мають не лише потенційний вплив на архітектуру ШІ, але й уже вплинули на поведінку ринків. Після анонсу нових алгоритмів від Google акції виробників оперативної пам’яті (Micron Technology, Western Digital, SanDisk, Seagate) знизилися на торгах: інвестори інтерпретували можливе послаблення попиту на DRAM і флеш‑пам’ять унаслідок суттєвого зниження потреб LLM у кеші пам’яті — хоча аналітики наголошують на складнощах прямого перенесення тестових результатів у реальні кейси та все ще прогнозують зростальний попит на пам’ять у найближчі роки.
Публікація TurboQuant заснована на попередніх академічних роботах із квантованої оптимізації векторних представлень (наприклад, PolarQuant), що вже демонстрували здатність стиснути KV‑кеш без нормалізаційних накладних витрат. У дослідженні PolarQuant: Quantizing KV Caches with Polar Transformation показано, що перетворення в полярні координати дозволяє досягати понад 4‑кратного стиснення кешу при збереженні оцінок якості щодо сучасних методів без значної втрати продуктивності, закладаючи основу для більш агресивних схем на кшталт TurboQuant.
Джерело: ArsTechnica
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.