XAI тихо запустила Grok 4.1: нова модель стала точнішою та "емоційнішою"

Компания xAI сообщила о запуске модели Grok 4.1. Новая версия уже доступна всем пользователям на grok.com, в соцсети Х и в приложениях для iOS и Android. Модель появляется автоматически в Auto-режиме, а также ее можно включить вручную через список моделей.

Команда xAI утверждает, что Grok 4.1 стала значительно чувствительнее к нюансам намерений пользователя, лучше работает в эмоциональных, творческих и совместных задачах. Модель ведет себя более последовательно и естественно.

Производительность

Grok 4.1 стала лидером на LMArena Text Arena. Версия Thinking (quasarflux) получила 1483 Elo — на 31 пункт больше любой другой не-xAI модели. Даже быстрая версия (tensor) занимает второе место — 1465 Elo, опережая полноценные reasoning-конфигурации других моделей. Третье место заняла Gemini 2.5 Pro. Предыдущая версия Grok 4 занимала лишь 33-ю позицию.

Эмоциональный и творческий интеллект

Модель проверили на EQ-Bench3 — сложном наборе из 45 сценариев с несколькими диалоговыми шагами. Эта проверка измеряет эмпатию, понимание эмоций и межличностные навыки. Grok 4.1 получил высокие оценки как по рубрикам, так и по нормализованному Elo в сравнительных соревнованиях. Дополнительно модель протестировали на creative writing v3 — 32 письменные задания в трех итерациях — и она показала значительный прогресс в творческих ответах.

Меньше галлюцинаций

Команда отдельно работала над тем, чтобы быстрая версия лучше отвечала на информационные запросы и реже ошибалась. xAI проверила модель на реальных запросах пользователей и на открытом бенчмарке FActScore из 500 фактологических биографических вопросов — и зафиксировала существенное снижение галлюцинаций.

Тихий запуск и оценивание

С 1 по 14 ноября 2025 года Grok 4.1 разворачивался незаметно — небольшие группы пользователей тестировали предыдущие сборки в grok.com, X и мобильных приложениях. В течение этого периода команда проводила слепые сравнения ответов в реальном трафике. В результате Grok 4.1 выбрали в 64,78% случаев по сравнению с предыдущей моделью.