XAI тихо запустила Grok 4.1: нова модель стала точнішою та "емоційнішою" — xAI представила Grok 4.1: модель стала краща в продуктивності, творчості та емпатії і тепер менше галюцинує / Depositphotos

Компанія xAI повідомила про запуск моделі Grok 4.1. Нова версія вже доступна усім користувачам на grok.com, у соцмережі Х та в застосунках для iOS і Android. Модель з’являється автоматично в Auto-режимі, а також її можна увімкнути вручну через перелік моделей.

Команда xAI стверджує, що Grok 4.1 стала значно чутливішою до нюансів намірів користувача, краще працює в емоційних, творчих та спільних завданнях. Модель поводиться послідовніше й природніше.

Продуктивність

Grok 4.1 стала лідером на LMArena Text Arena. Версія Thinking (quasarflux) отримала 1483 Elo — на 31 пункт більше за будь-яку іншу не-xAI модель. Навіть швидка версія (tensor) посідає друге місце — 1465 Elo, випереджаючи повноцінні reasoning-конфігурації інших моделей. Третє місце посіла Gemini 2.5 Pro. Попередня версія Grok 4 мала лише 33-тю позицію.

Емоційний та творчий інтелект

Модель перевірили на EQ-Bench3 — складному наборі з 45 сценаріїв із кількома діалоговими кроками. Ця перевірка вимірює емпатію, розуміння емоцій і міжособистісні навички. Grok 4.1 отримав високі оцінки як за рубриками, так і за нормалізованим Elo у порівняльних змаганнях. Додатково модель протестували на creative writing v3 — 32 письмові завдання у трьох ітераціях — і вона показала значний прогрес у творчих відповідях.

Менше галюцинацій

Команда окремо працювала над тим, щоб швидка версія краще відповідала на інформаційні запити й рідше помилялася. xAI перевірила модель на реальних запитах користувачів та на відкритому бенчмарку FActScore із 500 фактологічних біографічних питань — і зафіксувала суттєве зниження галюцинацій.

Тихий запуск і оцінювання

З 1 по 14 листопада 2025 року Grok 4.1 розгортали непомітно — невеликі групи користувачів тестували попередні збірки у grok.com, X та мобільних застосунках. Протягом цього періоду команда проводила сліпі порівняння відповідей у реальному трафіку. У результаті Grok 4.1 обрали у 64,78% випадків порівняно з попередньою моделлю.