OpenAI запустила GPT-5.4: до 1 млн токенів контексту, на 33% менше помилок — Depositphotos

OpenAI, у відчайдушній потребі в успіху після низки скандалів з Міністерством Оборони, намагається повернути довіру публіки і запускає GPT-5.4. Модель має стати великим кроком уперед для AI-агентів.

OpenAI назвала модель своєю “найздатнішою та найефективнішою флагманською моделлю для професійної роботи” і заявила, що вона об’єднує досягнення в міркуванні, кодуванні та агентних робочих процесах в єдину модель. Окрім стандартної версії, GPT-5.4 також доступна у варіантах GPT-5.4 Thinking (модель міркувань) та GPT-5.4 Pro, оптимізованій для високої продуктивності. API-версія моделі підтримує контекстні вікна розміром до 1 мільйона токенів — найбільше контекстне вікно, яке OpenAI коли-небудь пропонувала.

Компанія також підкреслює покращену ефективність використання токенів: GPT-5.4 здатна розв’язувати задачі з істотно меншою кількістю токенів, ніж попередник. GPT-5.4 починає розгортатися вже сьогодні і буде доступна в ChatGPT, Codex і API OpenAI. GPT-5.4 Thinking буде доступна для користувачів Plus, Teams і Pro, а GPT-5.4 Pro — через API, а також для підписників ChatGPT Enterprise та Edu.

За словами OpenAI, GPT-5.4 — перша модель загального призначення, випущена компанією з вбудованими можливостями використання комп’ютера, що означає її здатність автономно працювати в різних застосунках на пристрої від імені користувача. Модель може писати код, виконувати завдання на комп’ютері, а також надсилати команди клавіатури та миші для навігації операційною системою — значний крок у розвитку агентного ШІ. Результати бенчмарків компанії виглядають амбітно: GPT-5.4 посіла перше місце в Mercor APEX-Agents — тесті професійних сервісних навичок у юриспруденції та фінансах. Вона також показала рекордні результати в OSWorld-Verified і WebArena Verified, тестах, що оцінюють роботу моделі з комп’ютером, і отримала 83% у GDPval — оцінці задач інтелектуальної роботи.

За заявою генерального директора Mercor Брендана Фуді, модель “чудово справляється зі створенням довгострокових результатів, таких як презентації, фінансові моделі та юридичний аналіз”, демонструючи високу продуктивність при менших витратах. Як і раніше, OpenAI робить акцент на зменшенні помилок і галюцинацій: GPT-5.4 на 33% рідше робить помилки в окремих твердженнях порівняно з GPT-5.2, а загальна кількість відповідей з помилками знизилася на 18%.

Компанія також оновила API, запровадивши систему Tool Search для роботи з інструментами: замість завантаження всіх визначень інструментів у системний промпт, модель може шукати їх за потреби, що економить токени і прискорює запити у системах з великою кількістю інструментів. Додатково OpenAI представила нову оцінку безпеки для тестування ланцюжка міркувань моделі — проміжних пояснень, які демонструють процес “мислення” під час багатокрокових задач.

Дослідження показали, що GPT-5.4 Thinking менш схильна до фальсифікації свого ланцюжка міркувань, що, за заявою компанії, підтверджує ефективність моніторингу таких пояснень як інструменту безпеки. Платформа OpenAI, втім, стикається з викликами. За повідомленнями, після рішення компанії співпрацювати з Міністерством оборони США платформа втратила близько 1,5 млн користувачів. Це рішення викликало публічну критику, особливо на тлі позиції конкурента Anthropic, який відмовився від співпраці з Пентагоном, щоб зберегти свої обмеження. Невдоволення частини користувачів та співробітників показує, що технологічні успіхи не завжди гарантують суспільне прийняття — і компанії доведеться доводити, що її курс відповідає очікуванням ринку.