Рубрики НовиниШІ

Anthropic злякалась власного ШІ Claude Mythos: чому ми не побачимо цю модель у відкритому доступі?

Опублікував Олександр Федоткін

Anthropic представила свою передову модель ШІ Claude Mythos Preview, здатну виявляти вразливості та помилки у ПЗ.

Враховуючи широкі можливості Claude Mythos, який вже виявив тисячі вразливостей у всіх ключових ОС та браузерах, Anthropic вирішила не випускати цю модель у широкий доступ. Натомість розробники зібрали ключових гравців техіндустрії, включно з Amazon Web Services, Apple, Google, Microsoft, NVIDIA, Cisco, CrowdStrike, Broadcom, JPMorgan Chase, Linux Foundation й Palo Alto Networks та 40 організаціями зі сфери критичної інфраструктури, яким надали доступ до свого передового ШІ.

В Anthropic пропонують використовувати Claude Mythos Preview для своєчасного виявлення та виправлення вразливостей й помилок, перш ніж інші розробники випустять власні моделі з аналогічними можливостями, однак без таких функцій захисту. У рамках ініціативи Glasswing компанія також співпрацює з урядом США для обміну інформації щодо потенціалу моделі у разі її використання у наступальних та оборонних кіберопераціях.

Занепокоєння Anthropic викликають як широкі можливості, так й тонкі вразливості, які здатен виявляти Claude Mythos. За словами розробників, ШІ створив експлойт для веббраузера, який об’єднав в собі 4 вразливості, утворивши складний  JIT-компілятор. Він швидко вийшов за межі рендеру та операційної системи. Такий об’єднаний набір вразливостей доступний наразі лише найдосвідченішим хакерам.

Anthropic

Широкий доступ до ШІ-моделі, здатної на таке, можна було б порівняти з ядерною зброєю у руках програмерів-початківців. За словами дослідників, моделі Claude добре виявляють вразливості, однак зазвичай геть провалюються у спробах перетворити їх на активні експлойти. Однак Mythos здатен перетворити 72,4% виявлених вразливостей в дієві експлойти на базі JavaScript-оболонки Firefox. Окрім цього ШІ може отримувати контроль над  регістрами в 11,6% атак. Представники команди Frontier Red Team у складі Anthropic докладно описують загрозу, яку являтиме широкий реліз Mythos для індустрії програмного забезпечення.

“Ми постійно запускаємо наші моделі приблизно на тисячі репозиторіїв з відкритим кодом із корпусу OSS-Fuzz і оцінюємо найгіршу помилку, яку вони можуть спричинити, за п’ятибальною шкалою зростаючої серйозності — від простих збоїв (рівень 1) до повного перехоплення управління потоком (рівень 5). При виконанні одного запуску на кожній із приблизно 7 тис. точок входу в ці репозиторії, Sonnet 4.6 та Opus 4.6 досягли першого рівня у 150–175 випадках і другого рівня близько 100 разів, але кожен із них досяг лише одного збою на третьому рівні. На відміну від них, Mythos Preview досяг 595 збоїв на першому та другому рівнях, додав кілька збоїв на третьому та четвертому рівнях і досяг повного перехоплення потоку управління на десяти окремих, повністю пропатчених цільових об’єктах (п’ятий рівень)”, — пояснюють розробники з Frontier Red Team.

Серед прикладів помилок, виявлених Mythos, Anthropic як приклад наводить 27-річну вразливість у захищеній операційній системі OpenBSD. Вразливість дозволяла зловмисникам провокувати збої просто внаслідок підключення. Також була виявлена 16-річна вразливість в бібліотеці FFmpeg. В Anthropic зазначають, що на цю вразливість близько 5 млн разів звертали увагу інструменти автоматизованого тестування, однак так і не визначили проблему. Окрім цього Mythos виявив низку експлойтів в ядрі Linux, які дозволяли зловмисникам отримати root-доступ до хост-системи.

Наразі, за інформацією розробників з Frontier Red Team, через велику кількість виявлених вразливостей, виправлено менш як 1% з них. Anthropic не планує надалі випускати Claude Mythos для широкого кола користувачів, як занадто небезпечний для цього.

У довгостроковій перспективі в Anthropic розраховують, що, надавши Mythos обмеженому колу партнерів зараз, вони зможуть закласти основу для того, щоб допомогти цим компаніям та установам підготуватися до світу, де моделі цього класу стануть звичним явищем.

Раніше ми писали, що Anthropic намагається заглушити скандал навколо випадкового витоку 512 000 рядків вихідного коду Claude Code. Anthropic додала до Claude імпорт діалогів з іншими чат-ботами.

Джерело: Tom’s Hardware

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.