Китайский стартап искусственного интеллекта MiniMax известен реалистичной генеративной моделью видео Hailuo. Его LLM для программирования MiniMax-M1 свободна для коммерческого использования.
MiniMax-M1 с открытым исходным кодом распространяется с лицензией Apache 2.0. Это означает, что компании могут использовать его для коммерческих приложений и модифицировать по своему вкусу без ограничений или платы. Модель открытого веса доступна на Hugging Face и в Microsoft GitHub.
MiniMax-M1 отличается контекстным окном с 1 млн входных токенов и до 80 тыс. токенов на выходе, что делает одной из самых широких моделей для задач контекстного мышления. Для сравнения, GPT-4o от OpenAI имеет контекстное окно всего 128 000 токенов. Этого достаточно для обмена информацией объемом примерно как литературный роман за одно взаимодействие. С 1 млн токенов MiniMax-M1 может обменяться информацией объемом небольшой коллекции книг. Google Gemini 2.5 Pro также предлагает верхний предел контекста токенов в 1 млн, в разработке находится окно на 2 млн.
Согласно техническому отчету, MiniMax-M1 требует только 25% операций FLOP, необходимых DeepSeek R1 при генерации 100 000 токенов. Модель выпускается в вариантах MiniMax-M1-40k и MiniMax-M1-80k, с разным размером выхода. Архитектура построена на основе предыдущей платформы, MiniMax-Text-01 и включает 456 миллиардов параметров, из которых 45,9 миллиарда активны для одного токена.
Обучение модели M1 осуществлялось с помощью инновационной и высокоэффективной методики. Это гибридная смесь экспертов (MoE) с механизмом молниеносного внимания, разработанным для уменьшения затрат на вывод. Стоимость обучения составила всего $534 700. Такая эффективность объясняется специализированным алгоритмом CISPO, который обрезает веса выборки важности, а не обновления токенов, а также гибридной конструкцией внимания, которая помогает оптимизировать масштабирование. Для сравнения, обучение DeepSeek R1 стоило $5,6 млн (хотя в этом есть сомнения), тогда как стоимость обучения GPT-4 от OpenAI по оценкам превышает $100 млн.
Это первый релиз в серии MiniMaxWeek, о которой компания объявила в X. Очевидно, пользователей ожидает пять дней увлекательных анонсов.
Источник: VentureBeat