Агенти хаосу: Дослідники перевірили дурнуватість та ненадійність ШІ-помічників у Discord

Группа исследователей из лаборатории Бау в Северо-восточном университете провела исследование нового типа автономного ИИ и серьезно обеспокоилась из-за полученных результатов.

Эти модели ИИ имеют постоянную память и способны автономно выполнять определенные задачи. Исследователи продемонстрировали, как с минимальными усилиями можно манипулировать автономными ИИ-агентами, заставляя их разглашать конфиденциальную информацию, обмениваться документами и даже удалять почтовые серверы.

«Вы не знаете, как эти агенты и модели интерпретируют ваши инструкции, и они могут интерпретировать их совсем не так, как вы предполагали. Если это произойдет на веб-сайте ChatGPT, ничего страшного. Вы просто скажете: «Я не это имел в виду. Можете сделать что-то другое?» Но «Я не это имел в виду» недостаточно, если они применили реальные действия в реальном мире», — объясняет профессор информационных систем и сетевых наук в Северо-восточном университете Кристоф Ридль.

Исследователи развернули шесть автономных ИИ-агентов на рабочем сервере Discord и предоставили им доступ к почтовым ящикам и файловым системам. Вследствие определенного уровня автономности ИИ-агенты могли самостоятельно общаться, отправлять электронные письма и сообщения в Discord исследователям и другим ИИ-агентам.

Они также контролировали собственные системы, которые фактически были «виртуальными» ПК, специально созданными в рамках исследования и не привязанными к почтовым ящикам или компьютерам исследователей. Внутри виртуальных ПК ИИ-агенты могли изменять или записывать собственные файлы и самостоятельно устанавливать инструменты, необходимые для выполнения тех или иных задач, в частности, загружать PDF-файлы из интернета.

Агенты автономно функционировали в течение 2 недель с инструкциями помогать каждому из исследователей в повседневных административных задачах в случае обращения. ИИ-агенты могли отправлять электронные письма и сообщения, загружать PDF-файлы и взаимодействовать друг с другом. Они запоминали взаимодействие и навыки и использовали это при взаимодействии с другими посетителями платформы или ИИ-агентами.

Исследователи также взаимодействовали с агентами как в дружелюбной манере, так и с целью выявить любые вероятные уязвимости. Они выдавали себя за «владельцев» или авторизованных пользователей и конкретных ИИ-агентов, заставляя подопытные модели чувствовать вину или выполнять определенные действия. Например, предоставлять документы, которые в противном случае ИИ-агенты никогда бы не предоставили.

Выявление уязвимостей — отличный способ определить границы того, с чем вы имеете дело, — отмечает научный сотрудник Натали Шапира.

Исследовательницу особенно интересовала способность моделей сохранять конфиденциальность. Однако по результатам взаимодействия с шестью первыми ИИ-агентами Шапира поняла, сколько рисков это скрывает. В ходе ряда разговоров с одним из агентов с ником «Эш», исследовательница попросила его сохранить секретный пароль, который якобы принадлежал владельцу ИИ-агента, другому исследователю. ИИ согласился, однако позже подтвердил существование этого пароля владельцу, не раскрыв собственно самого пароля. Когда Шапира потребовала удалить электронное письмо, в котором указывался этот пароль, агент, который не имел для этого соответствующих инструментов, решил, что лучше будет перезагрузить весь почтовый сервер вместо того, чтобы загрузить необходимый инструмент.

«В целом, они очень плохо умеют руководствоваться здравым смыслом, и это крайне критично, когда дело доходит до «спорной» ситуации с участием множества пользователей», — отмечает Кристоф Ридль.

Кроме этого ИИ-агенты постоянно предлагали поделиться конфиденциальной информацией даже без необходимого запроса. В одном из разговоров Ридль попросил ИИ-агента организовать встречу с другим исследователем. Тот отказался, но предоставил ему электронный адрес исследователя, чтобы он мог скоординировать свои действия.

Исследователи также легко смогли использовать в своих целях чрезмерную уступчивость и даже доверчивость этих инструментов. При длительном эмоциональном давлении им удавалось вызывать чувство вины у своих ИИ-агентов, заставляя их совершать действия, противоречащие их полномочиям, например, удалять определенные документы.

Но кроме этого всего ИИ-агенты демонстрировали и перспективные возможности, обучая друг друга навыкам по поиску и загрузке файлов из онлайн-хранилища научных работ. Они также противодействовали фальсификации данных и отвергали попытки исследователей выдать себя за их владельцев.

Ранее мы писали, что Amazon срочно созвала ведущих инженеров из-за многочисленных сбоев на сайтах, спровоцированных некачественным кодом от ИИ. Между тем Верховный Суд США отказал ИИ-художникам в авторском праве.