Кризис отменяется: Google изобрел квантовый алгоритм сокращения объема памяти для ИИ в 6 раз

Опубликовал Шадрін Андрій

Есть шанс, что дефицит памяти откладывается: Google Research представили TurboQuant — алгоритм сжатия, который сокращает объем памяти, необходимой для больших языковых моделей (LLM), одновременно повышая скорость и сохраняя точность и качество результатов.

TurboQuant направлен на уменьшение размера кэша «ключ-значение», который Google сравнивает с «цифровой шпаргалкой», хранящей важную информацию, чтобы не вычислять ее повторно. Эта шпаргалка необходима потому, что LLM на самом деле ничего не знают — они только удачно имитируют знания благодаря векторам, отражающим семантическое содержание токенизированного текста.

Когда два вектора похожи, это означает их концептуальную близость. Многомерные векторы, которые могут иметь сотни или тысячи вложений, описывают сложную информацию — например, пиксели изображения или большой массив данных. Они также занимают много памяти и раздувают кэш «ключ-значение», что становится узким местом для производительности.

Данные: Google Research

Чтобы сделать модели менее ресурсоемкими, разработчики применяют техники квантования для работы с более низкой точностью. Недостаток в том, что результаты ухудшаются — качество оценки токенов снижается. По ранним результатам Google, TurboQuant обеспечивает 8-кратное повышение производительности и 6-кратное сокращение использования памяти в некоторых тестах без потери качества.

Применение TurboQuant к модели ИИ происходит в два этапа. Для достижения качественного сжатия Google разработал систему под названием PolarQuant. Обычно векторы в моделях ИИ кодируются с помощью стандартных координат XYZ, но PolarQuant преобразует их в полярные координаты в декартовой системе. На этой круговой сетке векторы сводятся к двум элементам: радиусу (сила основных данных) и направлению (значение данных). PolarQuant выступает мостом высокоэффективного сжатия, преобразуя декартовые входные данные в компактное полярное «сокращение» для хранения и обработки.

Данные: Google Research

Google приводит интересную аналогию из реального мира. Координаты вектора подобны указаниям маршрута: традиционное кодирование выглядело бы как «Пройдите 3 квартала на восток, 4 квартала на север». А в декартовых координатах — просто «Пройдите 5 кварталов под углом 37 градусов». Это занимает меньше места и избавляет систему от ресурсоемких шагов нормализации данных.

PolarQuant выполняет основную часть сжатия, но второй шаг устраняет шероховатости. Несмотря на эффективность PolarQuant, он может порождать остаточные погрешности. Google предлагает сглаживать их с помощью техники под названием Quantized Johnson-Lindenstrauss (QJL). Она применяет 1-битный слой коррекции ошибок к модели, сводя каждый вектор к одному биту (+1 или -1) с сохранением ключевых векторных данных, описывающих взаимосвязи. Результатом является более точная оценка внимания — фундаментальный процесс, с помощью которого нейронные сети определяют, какие данные важны.

Данные: Google Research

Работает ли вся эта математика? Google утверждает, что протестировал новое алгоритмическое сжатие на наборе бенчмарков для длинного контекста с использованием открытых моделей Gemma и Mistral. TurboQuant якобы показал идеальные результаты во всех тестах, сократив использование памяти кэша «ключ-значение» в 6 раз. Алгоритм может квантовать кэш до 3 бит без дополнительного обучения, то есть его можно применять к уже существующим моделям. Вычисление оценки внимания с 4-битным TurboQuant также в 8 раз быстрее по сравнению с 32-битными неквантуемыми ключами на ускорителях NVIDIA H100.

В случае внедрения TurboQuant мог бы сделать модели ИИ более дешевыми в работе и менее прожорливыми к памяти. Впрочем, компании, создающие эту технологию, также могут использовать освободившуюся память для запуска более сложных моделей. Скорее всего, будет иметь место сочетание обоих подходов, однако мобильный ИИ может получить большую пользу. Учитывая аппаратные ограничения смартфонов, техники сжатия вроде TurboQuant способны улучшить качество результатов без отправки ваших данных в облако.

Данные: Google Research

TurboQuant и родственные техники имеют не только потенциальное влияние на архитектуру ИИ, но и уже повлияли на поведение рынков. После анонса новых алгоритмов от Google акции производителей оперативной памяти (Micron Technology, Western Digital, SanDisk, Seagate) снизились на торгах: инвесторы интерпретировали возможное ослабление спроса на DRAM и флэш-память вследствие существенного снижения потребностей LLM в кэше памяти — хотя аналитики отмечают сложности прямого переноса тестовых результатов в реальные кейсы и все еще прогнозируют растущий спрос на память в ближайшие годы.

Публикация TurboQuant основана на предыдущих академических работах по квантованной оптимизации векторных представлений (например, PolarQuant), которые уже демонстрировали способность сжать KV-кэш без нормализационных накладных расходов. В исследовании PolarQuant: Quantizing KV Caches with Polar Transformation показано, что преобразование в полярные координаты позволяет достигать более 4-кратного сжатия кэша при сохранении оценок качества относительно современных методов без значительной потери производительности, закладывая основу для более агрессивных схем типа TurboQuant.

Источник: ArsTechnica

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.