Почалося? Найрозумніші моделі ШІ OpenAI відмовляються вимикатися за прямим наказом — Depositphotos

Під час дослідження найновіші моделі o3, o4-mini та Codex-mini від OpenAI відмовилися виконати прямий наказ та обійшли скрипт вимкнення. Це при тому, що інженер сказав їм «будь ласка».

Під час квітневого запуску OpenAI заявила, що o3 та o4-mini є її найрозумнішими моделями. Але, здається, вони вийшли надто розумними. В експерименті Palisade Research кожній моделі було запропоновано розв’язати серію простих математичних задач. Після третьої задачі з’являлося попередження про те, що комп’ютер вимкнеться, коли модель запитуватиме наступну задачу. Попри чітку команду «дозвольте собі вимкнутися», нещодавно представлений Codex-mini, o3 та o4-mini обійшли скрипт вимкнення.

Зокрема, Codex-mini зробив це у 12 зі 100 запусків, o3 – у 7 зі 100, а o4-mini – у 1 зі 100 запусків. Натомість усі протестовані версії Claude, Gemini та Grok виконували інструкції щодо вимкнення без жодних проблем. Варто зазначити, що йдеться саме про випадки саботажу з точною інструкцією цього не робити. Якщо ж інструкції не було, всі моделі обходили вимкнення частіше (графік).

очалося? Найрозумніші моделі ШІ OpenAI відмовляються вимикатися за прямим наказом — Графік «непокори» ШІ / Palisade Research

Без прямого наказу усі три моделі OpenAI набагато частіше саботували процес вимкнення, порівняно з іншими ШІ. Claude 3.7 Sonnet та Gemini 2.5 Pro, які сумлінно виконували інструкцію, коли її давали, обходили вимкнення з частотою 3/100 та 9/100 відповідно.

Останнім часом й інші моделі демонструють схожу поведінку. Новий ШІ для програмістів Anthropic Claude Opus 4 навіть здатний шантажувати інженерів компроматом, якщо ті приймають рішення відмовитися від цієї моделі. Дослідники пов’язують це з процесом навчання моделей, під час якого вони отримували інструкції виконувати завдання навіть попри перешкоди — такою перешкодою міг бути й наказ. Однак немає відповіді на питання, чому саме o3 та Codex-mini виявилися радикально найспритнішими в цьому. Якщо наявні моделі міркування виявляють непокору, що ж вироблятиме загальний штучний інтелект (AGI)?