Рубрики НовиниШІ

OpenAI запустила GPT-5.4: до 1 млн токенів контексту, на 33% менше помилок

Опублікував Андрій Шадрін

OpenAI, у відчайдушній потребі в успіху після низки скандалів з Міністерством Оборони, намагається повернути довіру публіки і запускає GPT-5.4. Модель має стати великим кроком уперед для AI-агентів.

OpenAI назвала модель своєю “найздатнішою та найефективнішою флагманською моделлю для професійної роботи” і заявила, що вона об’єднує досягнення в міркуванні, кодуванні та агентних робочих процесах в єдину модель. Окрім стандартної версії, GPT-5.4 також доступна у варіантах GPT-5.4 Thinking (модель міркувань) та GPT-5.4 Pro, оптимізованій для високої продуктивності. API-версія моделі підтримує контекстні вікна розміром до 1 мільйона токенів — найбільше контекстне вікно, яке OpenAI коли-небудь пропонувала.

Компанія також підкреслює покращену ефективність використання токенів: GPT-5.4 здатна розв’язувати задачі з істотно меншою кількістю токенів, ніж попередник. GPT-5.4 починає розгортатися вже сьогодні і буде доступна в ChatGPT, Codex і API OpenAI. GPT-5.4 Thinking буде доступна для користувачів Plus, Teams і Pro, а GPT-5.4 Pro — через API, а також для підписників ChatGPT Enterprise та Edu.

Дані: OpenAI

За словами OpenAI, GPT-5.4 — перша модель загального призначення, випущена компанією з вбудованими можливостями використання комп’ютера, що означає її здатність автономно працювати в різних застосунках на пристрої від імені користувача. Модель може писати код, виконувати завдання на комп’ютері, а також надсилати команди клавіатури та миші для навігації операційною системою — значний крок у розвитку агентного ШІ. Результати бенчмарків компанії виглядають амбітно: GPT-5.4 посіла перше місце в Mercor APEX-Agents — тесті професійних сервісних навичок у юриспруденції та фінансах. Вона також показала рекордні результати в OSWorld-Verified і WebArena Verified, тестах, що оцінюють роботу моделі з комп’ютером, і отримала 83% у GDPval — оцінці задач інтелектуальної роботи.

Дані: OpenAI

За заявою генерального директора Mercor Брендана Фуді, модель “чудово справляється зі створенням довгострокових результатів, таких як презентації, фінансові моделі та юридичний аналіз”, демонструючи високу продуктивність при менших витратах. Як і раніше, OpenAI робить акцент на зменшенні помилок і галюцинацій: GPT-5.4 на 33% рідше робить помилки в окремих твердженнях порівняно з GPT-5.2, а загальна кількість відповідей з помилками знизилася на 18%.

Компанія також оновила API, запровадивши систему Tool Search для роботи з інструментами: замість завантаження всіх визначень інструментів у системний промпт, модель може шукати їх за потреби, що економить токени і прискорює запити у системах з великою кількістю інструментів. Додатково OpenAI представила нову оцінку безпеки для тестування ланцюжка міркувань моделі — проміжних пояснень, які демонструють процес “мислення” під час багатокрокових задач.

Дані: OpenAI

Дослідження показали, що GPT-5.4 Thinking менш схильна до фальсифікації свого ланцюжка міркувань, що, за заявою компанії, підтверджує ефективність моніторингу таких пояснень як інструменту безпеки. Платформа OpenAI, втім, стикається з викликами. За повідомленнями, після рішення компанії співпрацювати з Міністерством оборони США платформа втратила близько 1,5 млн користувачів. Це рішення викликало публічну критику, особливо на тлі позиції конкурента Anthropic, який відмовився від співпраці з Пентагоном, щоб зберегти свої обмеження. Невдоволення частини користувачів та співробітників показує, що технологічні успіхи не завжди гарантують суспільне прийняття — і компанії доведеться доводити, що її курс відповідає очікуванням ринку.

Джерело: Gizmodo

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.