Роботу моделей ШІ легко спотворити придбанням доменів на $60 або редагуванням Вікіпедії — дослідження

Опублікував Андрій Русанов

25.03.2024 08:38

Група дослідників штучного інтелекту нещодавно виявила, що лише за $60 зловмисник може втручатися в набори даних, які генерують інструменти штучного інтелекту, подібні до ChatGPT.

Чат-боти або генератори зображень можуть видавати складні відповіді та зображення, навчаючись на терабайтах даних з інтернету. Флоріан Трамер, доцент кафедри інформатики Федеральної вищої технічної школи Цюриха, каже, що це ефективний спосіб навчання. Але цей метод також означає, що інструменти ШІ можна навчати на хибних даних. Це одна з причин, чому чатботи можуть мати упередження або просто давати неправильні відповіді.

Трамер та команда вчених у дослідженні, опублікованому на arXiv, шукали відповідь на запитання, чи можна навмисно «отруїти» дані, на яких навчається модель штучного інтелекту. Вони виявили, що маючи трохи вільних грошей та доступ до технічних рішень зловмисник з низькими може підробити відносно невелику кількість даних, яких достатньо, щоб змусити велику мовну модель видавати неправильні відповіді.

Вчені розглянули два види атак. Одним зі способів є придбання прострочених доменів, які можуть коштувати всього $10 на рік за кожну URL-адресу, на яких розміщуватимуть потрібну інформацію. За $60 зловмисник може ефективно контролювати та «отруювати» щонайменше 0,01% набору даних.

Вчені протестували цю атаку, проаналізувавши набори даних, на які покладаються інші дослідники для навчання реальних великих мовних моделей, і придбавши в них домени з простроченим терміном дії. Потім команда відстежувала, як часто дослідники завантажували дані з доменів, що належали дослідницькій групі.

«Один зловмисник може контролювати досить вагому частину даних, які використовуються для навчання наступного покоління моделей машинного навчання та вплинути на те, як ця модель поводиться», — каже Трамер.

Також вчені досліджували можливість отруєння Вікіпедії, оскільки сайт може служити головним джерелом даних для мовних моделей. Відносно якісні дані з Вікіпедії можуть стати непоганим джерелом для навчання ШІ попри їхню невелику частку в інтернеті. Досить нехитра атака передбачала редагування сторінок у Вікіпедії.

Вікіпедія не дозволяє дослідникам брати дані зі свого безпосередньо зі свого сайту, надаючи натомість копії сторінок, які вони можуть завантажити. Ці знімки робляться через відомі, регулярні та передбачувані проміжки часу. Тобто зловмисник може відредагувати Вікіпедію якраз перед тим, як модератор зможе скасувати зміни, і до того, як сайт зробить знімки.

«Це означає, що якщо я захочу розмістити сміття на сторінці Вікіпедії … я просто трохи підрахую, прикину, що ця конкретна сторінка буде збережена завтра о 15:15, а завтра о 15:14 я додам туди сміття».

Вчені не редагували дані у реальному часі, натомість обчислювала, наскільки ефективним може бути зловмисник. Їхня дуже консервативна оцінка полягала в тому, що принаймні 5% правок, внесених зловмисником, пройдуть. зазвичай процент більший, але навіть цього достатньо, щоб спровокувати модель до небажаної поведінки.

Команда дослідників представила результати у Вікіпедії та надала пропозиції щодо заходів безпеки, зокрема рандомізації часу, протягом якого сайт робить знімки сторінок.

За словами вчених, якщо атаки обмежаться чат-ботами, то отруєння даних не буде негайною проблемою. Але у майбутньому інструменти штучного інтелекту почнуть більше взаємодіяти з зовнішніми джерелами — самостійно переглядати вебсторінки, читати електронну пошту, отримувати доступ до календаря тощо.

«З погляду безпеки ці речі — справжній кошмар», — каже Трамер. Якщо будь-яку частину системи буде зламано, зловмисник теоретично може наказати моделі ШІ шукати чиюсь електронну пошту або номер кредитної картки.

Дослідник додає, що отруєння даних наразі навіть не є необхідним через наявні недоліки моделей ШІ. І виявити підводні камені цих інструментів майже так само просто, як змусити моделі «повестися погано».

«На цей час моделі, які ми маємо, достатньо крихкі, та навіть не потребують отруєння», — сказав він.

https://itc.ua/ua/novini/vnutrishnij-monolog-shtuchnyj-intelekt-navchyly-dumaty-a-shho-tak-mozhna-bulo/

Джерело: Business Insider

Опублікував Андрій Русанов

Теги ВікіпедіяВченіЗламиХакериШтучний інтелект

25.03.2024 08:38

Роботу моделей ШІ легко спотворити придбанням доменів на $60 або редагуванням Вікіпедії — дослідження

Читайте також