Дебати навколо використання авторського контенту для навчання мовних моделей не вщухають, і дослідники Microsoft задумалися над питанням — чи можна взагалі редагувати моделі без перенавчання, щоб видалити захищену авторським правом інформацію?
У дослідженні з нерецензованої статті на arXiv.org Ронен Елдан з Microsoft Research і Марк Русінович з Microsoft Azure спробували видалити інформацію про існування книг про Гаррі Поттера (включаючи персонажів і сюжети) з відкритого коду мовної моделі Meta Llama 2-7B.
«Хоча для попереднього навчання моделі знадобилося понад 184 тисячі GPU-годин, ми показуємо, що приблизно за 1 GPU-годину тонкого налаштування ми фактично стираємо здатність моделі генерувати або відтворювати контент, пов’язаний із Гаррі Поттером», — пишуть дослідники Microsoft.
Дослідження — черговий важливий крок до адаптивних мовних моделей, що здатні з часом удосконалюватись відповідно до потреб.
«Традиційні моделі здебільшого зосереджені на додаванні або зміцненні знань шляхом базового тонкого налаштування, але не забезпечують простих механізмів «забути» або «скасувати» знання», – кажуть автори.
Як же це зробити? Елдан і Русінович розробили спеціальну техніку, що передбачає три кроки для усунення певних даних з моделі:
Щоб оцінити результат, вони перевірили здатність моделі генерувати або обговорювати вміст про Гаррі Поттера за допомогою 300 автоматично згенерованих підказок.
Дослідники виявили, що в той час, як оригінальна модель могла легко обговорювати заплутані деталі сюжету книг Джоан Роулінг, лише через годину тонкого налаштування своєї техніки, оновлена — може фактично забути ці оповіді. Продуктивність у стандартних тестах для мовних моделей, таких як ARC, BoolQ і Winogrande, «залишилась майже незмінною».
Автори статті називають свою оцінку «обмеженою», і такою, що потребує додаткового тестування. Ймовірно, їхня техніка буде ефективнішою для художніх текстів, тоді як нон-фікшн міститиме більше унікальних посилань.
У висновку до статті вказано, що подальше вдосконалення може допомогти вирішити етичні чи суспільні проблеми, пов’язані з ШІ, або конкретні вимоги користувачів.
Джерело: Venturebeat