Работу моделей ИИ легко исказить приобретением доменов на $60 или редактированием Википедии

Группа исследователей искусственного интеллекта недавно обнаружила, что всего за $60 злоумышленник может вмешиваться в наборы данных, которые генерируют инструменты искусственного интеллекта, подобные ChatGPT.

Чат-боты или генераторы изображений могут выдавать сложные ответы и изображения, обучаясь на терабайтах данных из интернета. Флориан Трамер, доцент кафедры информатики Федеральной высшей технической школы Цюриха, говорит, что это эффективный способ обучения. Но этот метод также означает, что инструменты ИИ можно обучать на ложных данных. Это одна из причин, почему чатботы могут иметь предубеждения или просто давать неправильные ответы.

Трамер и команда ученых в исследовании, опубликованном на arXiv, искали ответ на вопрос, можно ли намеренно «отравить» данные, на которых обучается модель искусственного интеллекта. Они обнаружили, что с небольшим количеством свободных денег и доступом к техническим решениям злоумышленник с низким уровнем может подделать относительно небольшое количество данных, которых достаточно, чтобы заставить большую языковую модель выдавать неправильные ответы.

Ученые рассмотрели два вида атак. Одним из способов является приобретение просроченных доменов, которые могут стоить всего $10 в год за каждый URL-адрес, на которых будут размещать нужную информацию. За $60 злоумышленник может эффективно контролировать и «отравлять» не менее 0,01% набора данных.

Ученые протестировали эту атаку, проанализировав наборы данных, на которые полагаются другие исследователи для обучения реальных больших языковых моделей, и приобретя у них домены с просроченным сроком действия. Затем команда отслеживала, как часто исследователи загружали данные из доменов, принадлежавших исследовательской группе.

«Один злоумышленник может контролировать довольно значительную часть данных, используемых для обучения следующего поколения моделей машинного обучения, и повлиять на то, как эта модель ведет себя», — говорит Трамер.

Также ученые исследовали возможность отравления Википедии, поскольку сайт может служить главным источником данных для языковых моделей. Относительно качественные данные из Википедии могут стать неплохим источником для обучения ИИ, несмотря на их небольшую долю в интернете. Довольно нехитрая атака предполагала редактирование страниц в Википедии.

Википедия не позволяет исследователям брать данные непосредственно со своего сайта, предоставляя взамен копии страниц, которые они могут загрузить. Эти снимки делаются через известные, регулярные и предсказуемые промежутки времени. То есть злоумышленник может отредактировать Википедию как раз перед тем, как модератор сможет отменить изменения, и до того, как сайт сделает снимки.

«Это означает, что если я захочу разместить мусор на странице Википедии … я просто немного подсчитаю, прикину, что эта конкретная страница будет сохранена завтра в 15:15, а завтра в 15:14 я добавлю туда мусор».

Ученые не редактировали данные в реальном времени, зато вычисляли, насколько эффективным может быть злоумышленник. Их очень консервативная оценка заключалась в том, что по крайней мере 5% правок, внесенных злоумышленником, пройдут. обычно процент больше, но даже этого достаточно, чтобы спровоцировать модель к нежелательному поведению.

Команда исследователей представила результаты в Википедии и предоставила предложения по мерам безопасности, в частности рандомизации времени, в течение которого сайт делает снимки страниц.

По словам ученых, если атаки ограничатся чат-ботами, то отравление данных не будет немедленной проблемой. Но в будущем инструменты искусственного интеллекта начнут больше взаимодействовать с внешними источниками — самостоятельно просматривать веб-страницы, читать электронную почту, получать доступ к календарю и тому подобное.

«С точки зрения безопасности эти вещи — настоящий кошмар», — говорит Трамер. Если какая-либо часть системы будет взломана, злоумышленник теоретически может приказать модели ИИ искать чью-то электронную почту или номер кредитной карты.

Исследователь добавляет, что отравление данных в настоящее время даже не является необходимым из-за существующих недостатков моделей ИИ. И обнаружить подводные камни этих инструментов почти так же просто, как заставить модели «вести себя плохо».