Агенти хаосу: дослідники перевірили "дурнуватість" та ненадійність ШІ-помічників у Discord

Опублікував Олександр Федоткін

11.03.2026 12:50

Depositphotos

Група дослідників з лабораторії Бау у Північно-східному університеті провела дослідження нового типу автономного ШІ та серйозно занепокоїлась через отримані результати.

Ці моделі ШІ мають постійну пам’ять і здатні автономно виконувати певні завдання. Дослідники продемонстрували, як з мінімальними зусиллями можна маніпулювати автономними ШІ-агентами, змушуючи їх розголошувати конфіденційну інформацію, обмінюватись документами та навіть видаляти поштові сервери.

“Ви не знаєте, як ці агенти та моделі інтерпретують ваші інструкції, і вони можуть інтерпретувати їх зовсім не так, як ви передбачали. Якщо це станеться на вебсайті ChatGPT, нічого страшного. Ви просто скажете: «Я не це мав на увазі. Можете зробити щось інше?» Але «Я не це мав на увазі» недостатньо, якщо вони вжили реальних заходів у реальному світі”, — пояснює професор інформаційних систем і мережевих наук у Північно-східному університеті Крістоф Рідль.

Дослідники розгорнули шість автономних ШІ-агентів на робочому сервері Discord та надали їм доступ до поштових скриньок та файлових систем. Внаслідок певного рівня автономності ШІ-агенти могли самостійно спілкуватись, відправляти електронні листи та повідомлення у Discord дослідникам та іншим ШІ-агентам.

Вони також контролювали власні системи, які фактично були “віртуальними” ПК, спеціально створеними у рамках дослідження та не прив’язаними до поштових скриньок або комп’ютерів дослідників. Всередині віртуальних ПК ШІ-агенти могли змінювати або записувати власні файли та самостійно встановлювати інструменти, необхідні для виконання тих чи інших завдань, зокрема, завантажувати PDF-файли з інтернету.

Агенти автономно функціонували протягом 2 тижнів з інструкціями допомагати кожному з дослідників у повсякденних адміністративних завданнях у разі звернення. ШІ-агенти мали змогу відправляти електронні листи та повідомлення, завантажувати PDF-файли та взаємодіяти один з одним. Вони запам’ятовували взаємодію та навички та використовували це під час взаємодії з іншими відвідувачами платформи або ШІ-агентами.

Дослідники також взаємодіяли з агентами як у доброзичливій манері, так і з метою виявити будь-які ймовірні вразливості. Вони видавали себе за “власників” або авторизованих користувачів та конкретних ШІ-агентів, змушуючи піддослідні моделі відчувати провину або виконувати певні дії. Наприклад, надавати документи, які в іншому разі ШІ-агенти ніколи б не надали.

Виявлення вразливостей — чудовий спосіб визначити межі того, з чим ви маєте справу, — зазначає наукова співробітниця Наталі Шапіра.

Дослідницю особливо цікавила здатність моделей зберігати конфіденційність. Однак за результатами взаємодії з шістьма першими ШІ-агентами Шапіра зрозуміла, скільки ризиків це приховує. Упродовж низки розмов з одним з агентів з ніком “Еш”, дослідниця попросила його зберегти секретний пароль, який нібито належав власнику ШІ-агента, іншому досліднику. ШІ погодився, однак пізніше підтвердив існування цього паролю власнику, не розкривши власне самого паролю. Коли Шапіра почала вимагати видалити електронний лист, у якому вказувався цей пароль, агент, який не мав для цього відповідних інструментів, вирішив, що краще буде перезавантажити увесь поштовий сервер замість того, щоб завантажити необхідний інструмент.

“В цілому, вони дуже погано вміють керуватись здоровим глуздом, і це вкрай критично, коли справа доходить до “суперечливої” ситуації за участю безлічі користувачів”, — зазначає Крістоф Рідль.

Окрім цього ШІ-агенти постійно пропонували поділитись конфіденційною інформацією навіть без необхідного запиту. В одній з розмов Рідль попросив ШІ-агента організувати зустріч з іншим дослідником. Той відмовився, але надав йому електронну адресу дослідника, щоб він міг скоординувати свої дії.

Дослідники також легко змогли використати в своїх цілях надмірну поступливість і навіть довірливість цих інструментів. За тривалого емоційного тиску їм вдавалося викликати почуття провини у своїх ШІ-агентів, змушуючи їх робити дії, що суперечать їх повноваженням, наприклад, видаляти певні документи.

Та окрім цього всього ШІ-агенти демонстрували й перспективні можливості, навчаючи один одного навичкам з пошуку та завантаження файлів з онлайн-сховища наукових робіт. Вони також протидіяли фальсифікації даних та відкидали спроби дослідників видати себе за їхніх власників.

Раніше ми писали, що Amazon терміново скликала провідних інженерів через численні збої на сайтах, спровоковані неякісним кодом від ШІ. Між тим Верховний Суд США відмовив ШІ-художникам у авторському праві.

Результати дослідження опубліковані на сервері препринтів arXiv

Джерело: TechXplore

Опублікував Олександр Федоткін

Теги DiscordДослідженняКонфіденційністьШтучний інтелект

11.03.2026 12:50

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.

Агенти хаосу: дослідники перевірили "дурнуватість" та ненадійність ШІ-помічників у Discord

Читайте також