Дебати навколо використання авторського контенту для навчання мовних моделей не вщухають, і дослідники Microsoft задумалися над питанням — чи можна взагалі редагувати моделі без перенавчання, щоб видалити захищену авторським правом інформацію?

У дослідженні з нерецензованої статті на arXiv.org Ронен Елдан з Microsoft Research і Марк Русінович з Microsoft Azure спробували видалити інформацію про існування книг про Гаррі Поттера (включаючи персонажів і сюжети) з відкритого коду мовної моделі Meta Llama 2-7B.

«Хоча для попереднього навчання моделі знадобилося понад 184 тисячі GPU-годин, ми показуємо, що приблизно за 1 GPU-годину тонкого налаштування ми фактично стираємо здатність моделі генерувати або відтворювати контент, пов’язаний із Гаррі Поттером», — пишуть дослідники Microsoft.

Дослідження — черговий важливий крок до адаптивних мовних моделей, що здатні з часом удосконалюватись відповідно до потреб.

«Традиційні моделі здебільшого зосереджені на додаванні або зміцненні знань шляхом базового тонкого налаштування, але не забезпечують простих механізмів «забути» або «скасувати» знання», – кажуть автори.

Як же це зробити? Елдан і Русінович розробили спеціальну техніку, що передбачає три кроки для усунення певних даних з моделі:

На початку модель навчили на цільових даних (в цьому випадку на книгах про Гаррі Поттера), щоб ідентифікувати пов’язані з нею токени та порівняти прогнози з базовою моделлю.
Далі замінили унікальні вирази Гаррі Поттера загальними аналогами та створили альтернативні прогнози, наближені до моделі без такого навчання.
Ну і врешті-решт точно налаштували базову модель на ці альтернативні прогнози, фактично стираючи оригінальний текст із пам’яті, коли його підказує контекст.

Щоб оцінити результат, вони перевірили здатність моделі генерувати або обговорювати вміст про Гаррі Поттера за допомогою 300 автоматично згенерованих підказок.

Дослідники виявили, що в той час, як оригінальна модель могла легко обговорювати заплутані деталі сюжету книг Джоан Роулінг, лише через годину тонкого налаштування своєї техніки, оновлена — може фактично забути ці оповіді. Продуктивність у стандартних тестах для мовних моделей, таких як ARC, BoolQ і Winogrande, «залишилась майже незмінною».

Автори статті називають свою оцінку «‎обмеженою», і такою, що потребує додаткового тестування. Ймовірно, їхня техніка буде ефективнішою для художніх текстів, тоді як нон-фікшн міститиме більше унікальних посилань.

У висновку до статті вказано, що подальше вдосконалення може допомогти вирішити етичні чи суспільні проблеми, пов’язані з ШІ, або конкретні вимоги користувачів.