По данным The New York Times, OpenAI разработала модель аудиотранскрипции Whisper и транскрибировала более миллиона часов видео на YouTube, чтобы получить высококачественные материалы для обучения модели GPT-4.

Сообщается, что компания знала, что такие действия юридически сомнительны и находятся в «серой зоне» авторского права. Однако она считает это добросовестным использованием материалов. Президент OpenAI Грег Брокман лично участвовал в сборе видео, которые были использованы.

OpenAI исчерпала запасы полезных данных в 2021 году и обсуждала транскрипцию видео YouTube, подкастов и аудиокниг после просмотра других ресурсов. К тому времени компания обучала свои модели на данных, которые включали компьютерный код из Github, базы данных ходов в шахматах и содержимое школьных заданий из Quizlet.

Пресс-секретарь OpenAI Линдсей Хелд сообщила, что компания курирует «уникальные» наборы данных для каждой из своих моделей, чтобы «помочь им понять мир» и поддерживать конкурентоспособность в глобальных исследованиях. При этом компания использует «многочисленные источники, включая общедоступные данные и партнерства для непубличных данных», и она ищет возможность генерировать собственные синтетические данные.

Представитель Google Мэтт Брайант заявил, что компания «видела неподтвержденные отчеты» о деятельности OpenAI, добавив, что «и наши файлы robots.txt, и Условия использования запрещают несанкционированное копирование или загрузку контента YouTube».

На днях генеральный директор YouTube Нил Мохан заявил, что использование данных платформы для обучения модели OpenAI — это нарушение условий использования. Поэтому Google принимает «технические и юридические меры», чтобы предотвратить такое несанкционированное использование, «если у нас есть для этого четкое правовое или техническое основание».

Согласно источникам Times, Google также собирала транскрипции с YouTube. Мэтт Брайант сказал, что компания обучала свои модели «некоторому контенту YouTube в соответствии с нашими соглашениями с создателями YouTube».

Meta также столкнулась с ограничениями доступности хороших обучающих данных, и ее команда ИИ обсуждала неразрешенное использование защищенных авторским правом произведений, чтобы догнать OpenAI. После просмотра «почти доступных англоязычных книг, эссе, стихов и новостных статей в интернете» компания рассматривала такие шаги, как оплата лицензий на книги или даже прямая покупка крупного издательства. Кроме того, она была ограничена в способах использования данных пользователей из-за изменений, направленных на конфиденциальность, которые она сделала после скандала с Cambridge Analytica.

Источник: The Verge