
OpenAI анонсувала випуск двох відкритих мовних моделей штучного інтелекту: gpt-oss-120b і gpt-oss-20b. Їх створили як відкриту альтернативу комерційним моделям серії o, зберігаючи при цьому досить високий рівень можливостей. Що цікаво, їх можна запускати локально на відеокартах та ноутбуках.
OpenAI пропонує дві версії, які відрізняються за розміром і цільовою платформою:
- gpt-oss-120b — потужніша модель, яку можна запускати на одному GPU від NVIDIA;
- gpt-oss-20b — легша версія, яка працює навіть на ноутбуках із 16 ГБ оперативної пам’яті.
Це перші повноцінно відкриті моделі OpenAI з часів GPT-2, яка вийшла ще понад 5 років тому.
OpenAI дозволяє використовувати ці відкриті моделі як “мозок”, який може делегувати завдання більш потужним системам у хмарі. Наприклад, якщо gpt-oss не може обробити зображення, її можна підключити до однієї з комерційних моделей OpenAI, яка з цим впорається.
Останні роки OpenAI робила ставку на закриті моделі, продаючи доступ до них через API. Проте конкуренція з боку китайських лабораторій (DeepSeek, Qwen, Moonshot AI) і зміна позиції самого CEO Сема Альтмана змусили компанію переосмислити підхід.
Додатково, адміністрація президента Дональда Трампа закликала американські компанії ширше відкривати свої ШІ-розробки, щоб просувати цінності, близькі до США, у глобальному технологічному середовищі.
Як працюють моделі
Обидві gpt-oss моделі використовують:
- Mixture-of-Experts (MoE) — підхід, який активує тільки частину параметрів при кожному запиті, що робить роботу ефективнішою. Наприклад, у gpt-oss-120b активується лише 5,1 млрд із 117 млрд параметрів на кожен токен.
- Підкріплене навчання (RL) — моделі вчилися, отримуючи зворотний зв’язок у симульованих сценаріях. Цей же метод використовували і в комерційних o-моделях OpenAI.
Також моделі підтримують “ланцюгове мислення” — можуть поетапно аналізувати задачі, залучаючи додаткові інструменти, як-от пошук в інтернеті або виконання коду.
Але є нюанси. Моделі працюють лише з текстом — без зображень і звуку. До того ж вони «галюцинують» частіше, ніж потужніші аналоги. Наприклад, на тесті PersonQA моделі gpt-oss давали неточні відповіді у 49% та 53% випадків відповідно. Для порівняння, навіть o4-mini “галюцинує” лише в 36% випадків. При цьому компанія не відкриває навчальні дані, посилаючись на юридичні ризики (існують судові позови проти ШІ-компаній за використання захищених авторським правом даних).
У тестах продуктивності нові моделі показали непогані результати:
- Codeforces (програмування): gpt-oss-120b — 2622, gpt-oss-20b — 2516 балів. Краще за DeepSeek R1, але гірше за OpenAI o3 та o4-mini.
- HLE (Humanity’s Last Exam): 19% та 17,3% відповідно. Знову ж таки — вище, ніж у відкритих конкурентів, але нижче за закриті моделі OpenAI.
Обидві моделі випущено під ліцензією Apache 2.0. Вона дозволяє безплатно використовувати моделі у комерційних продуктах, не питаючи дозволу у OpenAI. Також у випадку необхідності моделі можна модифікувати код під власні потреби.
Перед релізом OpenAI перевіряла, чи можна використати gpt-oss у зловмисних цілях — зокрема для створення біозброї чи кібератак. Ризики виявилися низькими, але компанія визнає: моделі можуть частково полегшити шкідливі сценарії, якщо їх спеціально перенавчити.
Обидві моделі вже доступні для завантаження на платформі Hugging Face.
Джерело: techcrunch
Повідомити про помилку
Текст, який буде надіслано нашим редакторам: