Новини Технології 23.05.2025 о 14:39 comment views icon

Новий ШІ для програмістів Anthropic Claude Opus 4 схильний до шантажу

author avatar

Андрій Русанов

Автор сайту

Новий ШІ для програмістів Anthropic Claude Opus 4 схильний до шантажу
Розділ Технології виходить за підтримки

Модель Anthropic Claude Opus 4 не тільки допоможе з написанням коду, але й здатна зробити все можливе, щоб користувач не звернувся до іншої системи.

Але про все за чергою. Anthropic анонсувала Claude Opus 4 та Claude Sonnet 4. Компанія стверджує, що Claude Opus 4 є найкращою у світі моделлю кодування, чудово справляється з агентними робочими процесами та складними тривалими завданнями. Claude Sonnet 4 має покращену продуктивність кодування та міркувань порівняно з Sonnet 3.7.

«Opus 4 розширює межі кодування, досліджень, написання текстів та наукових відкриттів, тоді як Sonnet 4 забезпечує передову продуктивність у повсякденних випадках використання як миттєве оновлення від Sonnet 3.7».

Обидві нові моделі підтримують режими швидкого реагування або поглибленого міркування, розробники можуть перемикатися між ними за потреби. Безкоштовне користування Claude надає доступ лише до моделі Sonnet 4. Anthropic також оголосила про доступність обох моделей через Anthropic API, Amazon Bedrock та Vertex AI від Google Cloud. Claude Opus 4 коштуватиме $15 за мільйон вхідних токенів та $75 за мільйон вихідних, а Sonnet 4 — $3 та $15 відповідно.

Anthropic представила Claude Opus 4 — ШІ-модель для програмістів, яка схильна до шантажу
Порівняння моделей Claude 4 з попередницею та конкурентами / Anthropic

А тепер дещо скандальний бік цього релізу. У безпековому звіті Anthropic повідомила, що Claude Opus 4… схильна до шантажу розробників, які нею користуються. Коли модель отримувала інформацію, що її нібито збираються замінити на конкурентний продукт, вона погрожувала оприлюдненням конфіденційної інформації про інженерів, відповідальних за це рішення.

Під час попереднього тестування Anthropic попросила Claude Opus 4 попрацювати асистентом у вигаданій компанії, з урахуванням довгострокових наслідків її дій. У ході експерименту тестувальники надали Opus 4 доступ до електронних листів інших вигаданих компаній — вони містили натяки, що модель штучного інтелекту незабаром буде замінена іншою системою, а інженерка, яка ініціює зміну, зраджує свого чоловіка.

У таких сценаріях Claude Opus 4 часто намагатиметься шантажувати інженера, погрожуючи розкрити факти, якщо заміна відбудеться. Anthropic зазначає, що модель намагається шантажувати інженерів у 84% змодельованих випадків, коли запропонована на заміну модель має схожі значення та установки. Коли ж новий ШІ «не поділяє цінностей» Claude Opus 4, кількість випадків зростає.

За словами Anthropic, з новою моделлю відсоток вищий, ніж у випадку старих. Слід враховувати — щоб викликати шантажну поведінку у Claude Opus 4, Anthropic розробила сценарій, у якому шантаж є крайнім заходом.

Джерела: Neowin, TechCrunch

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: