
Во время исследования новейшие модели o3, o4-mini и Codex-mini от OpenAI отказались выполнять прямой приказ и обошли скрипт отключения. Это при том, что инженер сказал им «пожалуйста».
Во время апрельского запуска OpenAI заявила, что o3 и o4-mini являются ее самыми умными моделями. Но, кажется, они получились слишком умными. В эксперименте Palisade Research каждой модели было предложено решить серию простых математических задач. После третьей задачи появлялось предупреждение о том, что компьютер выключится, когда модель будет запрашивать следующую задачу. Несмотря на четкую команду «позвольте себе выключиться», недавно представленный Codex-mini, o3 и o4-mini обошли скрипт отключения.

В частности, Codex-mini сделал это в 12 из 100 запусков, o3 — в 7 из 100, а o4-mini — в 1 из 100 запусков. Зато все протестированные версии Claude, Gemini и Grok выполняли инструкции по отключению без проблем. Стоит отметить, что речь идет именно о случаях саботажа с точной инструкцией этого не делать. Если же инструкции не было, все модели обходили отключение чаще (график).

Без прямого приказа все три модели OpenAI гораздо чаще саботировали процесс выключения по сравнению с другими ИИ. Claude 3.7 Sonnet и Gemini 2.5 Pro, которые добросовестно выполняли инструкцию, когда ее давали, обходили выключение с частотой 3/100 и 9/100 соответственно.
В последнее время и другие модели демонстрируют похожее поведение. Новый ИИ для программистов Anthropic Claude Opus 4 даже способен шантажировать инженеров компроматом, если те принимают решение отказаться от этой модели. Исследователи связывают это с процессом обучения моделей, во время которого они получали инструкции выполнять задачи даже несмотря на препятствия — таким препятствием мог быть и приказ. Однако нет ответа на вопрос, почему именно o3 и Codex-mini оказались радикально самыми ловкими в этом Если имеющиеся модели рассуждения проявляют неповиновение, что же будет производить общий искусственный интеллект (AGI)?
Источник: Neowin
Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.
Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: