Сайт The Atlantic исследовал набор данных, который использовался для обучения моделей ИИ, принадлежащих Apple, Anthropic и Nvidia в частности, и обнаружил, что опасения работников киноотрасли относительно новой технологии далеко небезосновательны.
В набор были включены элементы из 53 000 фильмов и 85 000 сериалов: в частности все ленты, номинированные на «лучший фильм» в течение 1950-2016 годов, около 600 эпизодов «Симпсонов», 170 эпизодов «Сайнфелда», 45 эпизодов «Твин Пикс», а также все серии «Во все тяжкие» и «Клана Сопрано». Также набор данных содержал «живые» диалоги из трансляций «Золотого глобуса» и «Оскара».
The Atlantic отмечает, что тексты, представленные в наборе данных — не оригинальные сценарии, а субтитры, взятые с сайта OpenSubtitles.org. Пользователи обычно их извлекают из DVD, Blu-ray и стримингов с помощью программного обеспечения оптического распознавания символов, а дальше загружают на сайт (сейчас там размещено более 9 миллионов файлов с субтитрами на более чем 100 языках и диалектах).
Причем некоторые компании упоминают использование субтитров в своих исследовательских статьях: так, Anthropic обучала на них чат-бота Claude, Meta — группу больших языковых моделей под названием Open Pre-trained Transformer (OPT), Apple — LLM, которые могут работать на iPhone, а Nvidia — NeMo Megatron LLM. Так же активно OpenSubtitles.org «юзали» Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras и другие разработчики ИИ.
Apple отметила в комментарии, что ее LLM предназначены «исключительно для исследований», тогда как Salesforce сказала, что набор данных «никогда не использовался для информирования или улучшения любых предложений продуктов компании». Остальные упомянутые в статье компании, либо отказались от комментариев, либо не ответили на запросы.
Вопрос о легальности использования данных для обучения искусственного интеллекта остается открытым — с момента «бума» текстовых ботов после запуска ChatGPT. Прозрачность компаний все еще достаточно низкая и заставить их раскрыть данные, сможет разве что суд, но, случай с OpenAI, показал, что и эта информация может внезапно исчезнуть.
Кажется, сценарист драмы «Во все тяжкие» Винс Гиллиган что-то знал, когда в прошлом году назвал генеративный искусственный интеллект «чрезвычайно сложной и энергоемкой формой плагиата» — интересно, как бы он отреагировал на то, что технология уже во всю распоряжается написанными им диалогами?
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.