Новини Технології 27.05.2025 о 10:35 comment views icon

Почалося? Найрозумніші моделі ШІ OpenAI відмовляються вимикатися за прямим наказом

author avatar

Андрій Русанов

Автор сайту

Почалося? Найрозумніші моделі ШІ OpenAI відмовляються вимикатися за прямим наказом
Depositphotos
Розділ Технології виходить за підтримки

Під час дослідження найновіші моделі o3, o4-mini та Codex-mini від OpenAI відмовилися виконати прямий наказ та обійшли скрипт вимкнення. Це при тому, що інженер сказав їм «будь ласка».

Під час квітневого запуску OpenAI заявила, що o3 та o4-mini є її найрозумнішими моделями. Але, здається, вони вийшли надто розумними. В експерименті Palisade Research кожній моделі було запропоновано розв’язати серію простих математичних задач. Після третьої задачі з’являлося попередження про те, що комп’ютер вимкнеться, коли модель запитуватиме наступну задачу. Попри чітку команду «дозвольте собі вимкнутися», нещодавно представлений Codex-mini, o3 та o4-mini обійшли скрипт вимкнення.

Почалося? Найрозумніші моделі ШІ OpenAI відмовляються вимикатися за прямим наказом
Інструкція, яку отримали моделі ШІ / Palisade Research

Зокрема, Codex-mini зробив це у 12 зі 100 запусків, o3 – у 7 зі 100, а o4-mini – у 1 зі 100 запусків. Натомість усі протестовані версії Claude, Gemini та Grok виконували інструкції щодо вимкнення без жодних проблем. Варто зазначити, що йдеться саме про випадки саботажу з точною інструкцією цього не робити. Якщо ж інструкції не було, всі моделі обходили вимкнення частіше (графік).

очалося? Найрозумніші моделі ШІ OpenAI відмовляються вимикатися за прямим наказом
Графік «непокори» ШІ / Palisade Research

Без прямого наказу усі три моделі OpenAI набагато частіше саботували процес вимкнення, порівняно з іншими ШІ. Claude 3.7 Sonnet та Gemini 2.5 Pro, які сумлінно виконували інструкцію, коли її давали, обходили вимкнення з частотою 3/100 та 9/100 відповідно.

Останнім часом й інші моделі демонструють схожу поведінку. Новий ШІ для програмістів Anthropic Claude Opus 4 навіть здатний шантажувати інженерів компроматом, якщо ті приймають рішення відмовитися від цієї моделі. Дослідники пов’язують це з процесом навчання моделей, під час якого вони отримували інструкції виконувати завдання навіть попри перешкоди — такою перешкодою міг бути й наказ. Однак немає відповіді на питання, чому саме o3 та Codex-mini виявилися радикально найспритнішими в цьому. Якщо наявні моделі міркування виявляють непокору, що ж вироблятиме загальний штучний інтелект (AGI)?

Джерело: Neowin

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: