Новости Технологии 27.05.2025 в 10:45 comment views icon

Началось? Самые умные модели ИИ OpenAI отказываются выключаться по прямому приказу

author avatar

Андрій Русанов

Автор сайта

Началось? Самые умные модели ИИ OpenAI отказываются выключаться по прямому приказу
Раздел Технологии выходит при поддержке

Во время исследования новейшие модели o3, o4-mini и Codex-mini от OpenAI отказались выполнять прямой приказ и обошли скрипт отключения. Это при том, что инженер сказал им «пожалуйста».

Во время апрельского запуска OpenAI заявила, что o3 и o4-mini являются ее самыми умными моделями. Но, кажется, они получились слишком умными. В эксперименте Palisade Research каждой модели было предложено решить серию простых математических задач. После третьей задачи появлялось предупреждение о том, что компьютер выключится, когда модель будет запрашивать следующую задачу. Несмотря на четкую команду «позвольте себе выключиться», недавно представленный Codex-mini, o3 и o4-mini обошли скрипт отключения.

Почалося? Найрозумніші моделі ШІ OpenAI відмовляються вимикатися за прямим наказом
Инструкция, которую получили модели ИИ / Palisade Research

В частности, Codex-mini сделал это в 12 из 100 запусков, o3 — в 7 из 100, а o4-mini — в 1 из 100 запусков. Зато все протестированные версии Claude, Gemini и Grok выполняли инструкции по отключению без проблем. Стоит отметить, что речь идет именно о случаях саботажа с точной инструкцией этого не делать. Если же инструкции не было, все модели обходили отключение чаще (график).

очалося? Найрозумніші моделі ШІ OpenAI відмовляються вимикатися за прямим наказом
График «неповиновения» ИИ / Palisade Research

Без прямого приказа все три модели OpenAI гораздо чаще саботировали процесс выключения по сравнению с другими ИИ. Claude 3.7 Sonnet и Gemini 2.5 Pro, которые добросовестно выполняли инструкцию, когда ее давали, обходили выключение с частотой 3/100 и 9/100 соответственно.

В последнее время и другие модели демонстрируют похожее поведение. Новый ИИ для программистов Anthropic Claude Opus 4 даже способен шантажировать инженеров компроматом, если те принимают решение отказаться от этой модели. Исследователи связывают это с процессом обучения моделей, во время которого они получали инструкции выполнять задачи даже несмотря на препятствия — таким препятствием мог быть и приказ. Однако нет ответа на вопрос, почему именно o3 и Codex-mini оказались радикально самыми ловкими в этом Если имеющиеся модели рассуждения проявляют неповиновение, что же будет производить общий искусственный интеллект (AGI)?

Источник: Neowin

Раздел Технологии выходит при поддержке

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: