Дебаты вокруг использования авторского контента для обучения языковых моделей не утихают, и исследователи Microsoft задумались — а можно ли вообще редактировать модели без переучивания, чтобы удалить защищенную авторским правом информацию?

В исследовании из нерецензированной статье на arXiv.org Ронен Элдан из Microsoft Research и Марк Русинович из Microsoft Azure попытались удалить информацию о существовании книг о Гарри Поттере (включая персонажей и сюжеты) из открытого кода языковой модели Meta Llama 2-7B.

«Хотя для предварительного обучения модели понадобилось более 184 тысяч GPU-часов, мы показываем, что примерно за 1 GPU-час тонкой настройки мы фактически стираем способность модели генерировать или воспроизводить контент, связанный с Гарри Поттером», — пишут исследователи Microsoft.

Исследование — очередной важный шаг к адаптивным языковым моделям, способным со временем совершенствоваться в соответствии с потребностями.

«Традиционные модели в основном сосредоточены на добавлении или укреплении знаний путем базовой тонкой настройки, но не обеспечивают простых механизмов «забыть» или «отменить» знания», — говорят авторы.

Так как это сделать? Элдан и Русинович разработали специальную технику, предусматривающую три шага для устранения определенных данных из модели:

В начале модель научили на целевых данных (в данном случае на книгах о Гарри Поттере), чтобы идентифицировать связанные с ней токены и сравнить прогнозы с базовой моделью.
Затем заменили уникальные выражения из Гарри Поттера общими аналогами и создали альтернативные прогнозы, приближенные к модели без такого обучения.
Ну и, наконец, точно настроили базовую модель на эти альтернативные прогнозы, фактически стирая оригинальный текст из памяти, когда его подсказывает контекст.

Чтобы оценить результат, они проверили способность модели генерировать или обсуждать содержимое Гарри Поттера с помощью 300 автоматически сгенерированных подсказок.

Исследователи обнаружили, что в то время, как оригинальная модель могла легко обсуждать запутанные детали сюжета книг Джоан Роулинг, всего лишь через час тонкой настройки, обновленная — может фактически забыть эти рассказы. Производительность в стандартных тестах для языковых моделей, таких как ARC, BoolQ и Winogrande, осталась «почти неизменной».

Авторы статьи называют свою оценку «ограниченной» и такой, что требует дополнительного тестирования. Вероятно, их техника будет более эффективной для художественных текстов, в то время как нон-фикшн будет содержать больше уникальных ссылок.

В заключении статьи указано, что дальнейшее совершенствование может помочь решить этические или общественные проблемы, связанные с ИИ, или конкретные требования пользователей.