Группа исследователей создала искусственного «червя» на основе ИИ, — вредоносную программу, которая может похищать данные, распространять другое вредоносное ПО и рассылать спам другим через электронную почту. «Червь» с названием Morris II был разработан и успешно функционирует в тестовой среде с использованием популярных LLM.

Основываясь на своих выводах, исследователи разработали советы для производителей генеративных ИИ и подчеркнули потенциальную опасность вредоносного программирования. Команда поделилась исследованием и опубликовала видео, которое показывает, как используются два метода для кражи данных и воздействия на клиенты электронной почты.

Создателями эксперимента стали Бен Насси из Корнельского университета, США, Став Коэн из Израильского технологического института и Рон Биттон из компании-производителя ПО Intuit. Они назвали его Morris II в честь оригинального Morris, первого компьютерного «червя», который в 1988 году создал масштабные неприятности в интернете. ПО работает, нацеливаясь на программы генеративного ИИ и с помощниками электронной почты с поддержкой ИИ, которые генерируют текст и изображения — Gemini Pro, ChatGPT 4.0 и LLaVA.

Он работает с помощью самовоспроизводящейся подсказки, которая используется против моделей, подобно тому, как джейлбрейк работает для распространения токсичного контента с помощью ИИ. Исследователи продемонстрировали это, создав систему электронной почты с этими генеративными механизмами искусственного интеллекта и используя подсказку, которая самовоспроизводится из текста или встроенного файла изображения.

Текстовое сообщение заражает помощника электронной почты, который использует LLM, чтобы использовать дополнительные данные извне системы, которые затем отправляются в GPT-4 или Gemini Pro для создания текстового контента. Этот контент взламывает сервис ИИ и успешно похищает данные. Другой метод кодирует самовосстанавливающуюся подсказку в изображении и заставляет помощника электронной почты пересылать сообщения, содержащие нужное содержание, всем, заражая новые клиенты электронной почты и пересылая зараженные сообщения дальше. Во время обоих экспериментов исследователи могли получить конфиденциальную информацию, включая данные кредитной карты и номера социального страхования.

ИИ-«червь», который реально функционирует даже в контролируемой среде, доказывает, что такая возможность больше не является теоретической и требует серьезного рассмотрения и эффективных решений.