В 10 раз быстрее GPT-4o: Inception Labs представила Mercury — первую диффузионную языковую модель

В течение длительного времени велись активные дискуссии о поиске лучшей архитектуры для больших языковых моделей (LLM), которая могла бы стать альтернативой трансформерам. Похоже, калифорнийский стартап Inception Labs уже имеет перспективное решение. Компания представила Mercury — первую в мире большую языковую модель на основе диффузии, разработанную для коммерческого использования.

Согласно независимой платформе тестирования Artificial Analysis, Mercury в 10 раз быстрее современных передовых моделей. Ее производительность превышает 1000 токенов в секунду на графических процессорах NVIDIA H100, что ранее было возможно только на специализированных чипах.

Как это работает?

«Трансформеры доминируют в генерации текста LLM и создают токены последовательно. Диффузионные модели предлагают альтернативу — они генерируют весь текст одновременно, применяя процесс от грубого к детальному», — объяснил Эндрю Эн, основатель DeepLearning.AI, в своем посте на X.

Эта последняя фраза является ключевой для понимания, почему подход Inception Labs выглядит интересным. Для простоты понимания, LLM на базе трансформеров обучаются авторегрессивно, то есть прогнозируют слова (или токены) слева направо. Однако диффузия — это техника, которую искусственный интеллект обычно использует для генерации изображений и видео. Диффузия работает иначе — она не движется слева направо, а создает весь текст одновременно. При этом все начинается с «шума», который постепенно очищается и получается поток токенов.

Mercury может изменить правила игры и открыть новые возможности в работе LLM. А согласно тестированию, этот подход существенно влияет на скорость генерации текста.

Скорость и производительность Mercury

В тестах на стандартных бенчмарках для кодирования Mercury превзошел производительность скоростных моделей, таких как GPT-4o Mini, Gemini 2.0 Flash и Claude 3.5 Haiku.

В частности, версия Mercury Coder Mini достигла 1109 токенов за секунду.

Inception Labs представила Mercury – першу дифузійну LLM, у 10 разів швидшу за GPT-4o — Сравнение производительности Mercury с другими языковыми моделями

Более того, стартап заявил, что диффузные модели имеют преимущество в логическом мышлении и структурированности ответов, поскольку они не ограничены только предыдущими токенами.

У 10 разів швидша за GPT-4o: Inception Labs представила Mercury — першу дифузійну мовну модель — Сравнение производительности Mercury с другими языковыми моделями

Кроме того, они могут постоянно улучшать исходные данные, уменьшая галлюцинации и ошибки. Именно диффузионные методы используются в генераторах видео, таких как Sora и Midjourney.

Компания также раскритиковала современные методы логического вывода, которые требуют значительных вычислительных ресурсов для генерации сложных ответов.

«Создание длинных логических цепочек приводит к огромным затратам на вычисления и неприемлемой задержке. Чтобы сделать высококачественный искусственный интеллект доступным, требуется изменение парадигмы», — заявили в Inception Labs.

Стартап выпустил предварительную версию Mercury Coder, чтобы пользователи могли протестировать ее возможности.

Недавно Anthropic представила Claude 3.7 Sonnet — первую гибридную модель рассуждения и «лучший ИИ для айтишников».

Источник: analyticsindiamag