Anthropic представила Claude Opus 4 — ИИ-модель для программистов, склонная к шантажу

Опубликовал Андрій Русанов

Модель Anthropic Claude Opus 4 не только поможет с написанием кода, но и способна сделать все возможное, чтобы пользователь не обратился к другой системе.

Но обо всем по порядку. Anthropic анонсировала Claude Opus 4 и Claude Sonnet 4. Компания утверждает, что Claude Opus 4 является лучшей в мире моделью кодирования, прекрасно справляется с агентскими рабочими процессами и сложными длительными задачами. Claude Sonnet 4 имеет улучшенную производительность кодирования и рассуждений по сравнению с Sonnet 3.7.

«Opus 4 расширяет границы кодирования, исследований, написания текстов и научных открытий, в то время как Sonnet 4 обеспечивает передовую производительность в повседневных случаях использования как мгновенное обновление от Sonnet 3.7».

Обе новые модели поддерживают режимы быстрого реагирования или углубленного рассуждения, разработчики могут переключаться между ними при необходимости. Бесплатное пользование Claude предоставляет доступ только к модели Sonnet 4. Anthropic также объявила о доступности обеих моделей через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. Claude Opus 4 будет стоить $15 за миллион входных токенов и $75 за миллион выходных, а Sonnet 4 — $3 и $15 соответственно.

Сравнение моделей Claude 4 с предшественницей и конкурентами / Anthropic

А теперь несколько скандальная сторона этого релиза. В безопасности отчёт Anthropic сообщила, что Claude Opus 4… склонна к шантажу разработчиков, которые ею пользуются. Когда модель получает информацию, что ее якобы собираются заменить на конкурентный продукт, она угрожает обнародованием конфиденциальной информации об инженерах, ответственных за это решение.

Во время предварительного тестирования Anthropic попросила Claude Opus 4 поработать ассистентом в вымышленной компании, с учетом долгосрочных последствий ее действий. В ходе эксперимента тестировщики предоставили Opus 4 доступ к электронным письмам других вымышленных компаний — они содержали намеки, что модель искусственного интеллекта вскоре будет заменена другой системой, а инженер, инициирующая изменение, изменяет своему мужу.

В таких сценариях Claude Opus 4 часто будет пытаться шантажировать инженера, угрожая раскрыть факты, если замена произойдет. Anthropic отмечает, что модель пытается шантажировать инженеров в 84% смоделированных случаев, когда предложенная на замену модель имеет схожие значения и установки. Когда же новый ИИ «не разделяет ценностей» Claude Opus 4, количество случаев возрастает.

По словам Anthropic, с новой моделью процент выше, чем в случае старых. Следует учитывать — чтобы вызвать шантажное поведение у Claude Opus 4, Anthropic разработала сценарий, в котором шантаж является крайней мерой.

Источники: Neowin, TechCrunch