Anthropic представила Claude Opus 4 — ШІ-модель для програмістів, яка схильна до шантажу

Модель Anthropic Claude Opus 4 не тільки допоможе з написанням коду, але й здатна зробити все можливе, щоб користувач не звернувся до іншої системи.

Але про все за чергою. Anthropic анонсувала Claude Opus 4 та Claude Sonnet 4. Компанія стверджує, що Claude Opus 4 є найкращою у світі моделлю кодування, чудово справляється з агентними робочими процесами та складними тривалими завданнями. Claude Sonnet 4 має покращену продуктивність кодування та міркувань порівняно з Sonnet 3.7.

«Opus 4 розширює межі кодування, досліджень, написання текстів та наукових відкриттів, тоді як Sonnet 4 забезпечує передову продуктивність у повсякденних випадках використання як миттєве оновлення від Sonnet 3.7».

Обидві нові моделі підтримують режими швидкого реагування або поглибленого міркування, розробники можуть перемикатися між ними за потреби. Безкоштовне користування Claude надає доступ лише до моделі Sonnet 4. Anthropic також оголосила про доступність обох моделей через Anthropic API, Amazon Bedrock та Vertex AI від Google Cloud. Claude Opus 4 коштуватиме $15 за мільйон вхідних токенів та $75 за мільйон вихідних, а Sonnet 4 — $3 та $15 відповідно.

А тепер дещо скандальний бік цього релізу. У безпековому звіті Anthropic повідомила, що Claude Opus 4… схильна до шантажу розробників, які нею користуються. Коли модель отримувала інформацію, що її нібито збираються замінити на конкурентний продукт, вона погрожувала оприлюдненням конфіденційної інформації про інженерів, відповідальних за це рішення.

Під час попереднього тестування Anthropic попросила Claude Opus 4 попрацювати асистентом у вигаданій компанії, з урахуванням довгострокових наслідків її дій. У ході експерименту тестувальники надали Opus 4 доступ до електронних листів інших вигаданих компаній — вони містили натяки, що модель штучного інтелекту незабаром буде замінена іншою системою, а інженерка, яка ініціює зміну, зраджує свого чоловіка.

У таких сценаріях Claude Opus 4 часто намагатиметься шантажувати інженера, погрожуючи розкрити факти, якщо заміна відбудеться. Anthropic зазначає, що модель намагається шантажувати інженерів у 84% змодельованих випадків, коли запропонована на заміну модель має схожі значення та установки. Коли ж новий ШІ «не поділяє цінностей» Claude Opus 4, кількість випадків зростає.

За словами Anthropic, з новою моделлю відсоток вищий, ніж у випадку старих. Слід враховувати — щоб викликати шантажну поведінку у Claude Opus 4, Anthropic розробила сценарій, у якому шантаж є крайнім заходом.