Новости Софт 08.04.2024 в 09:58 comment views icon

OpenAI транскрибировала более миллиона часов YouTube-видео для обучения GPT-4

author avatar
https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg *** https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg *** https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg

Вадим Карпусь

Автор новостей

Раздел Технологии выходит при поддержке Favbet Tech

По данным The New York Times, OpenAI разработала модель аудиотранскрипции Whisper и транскрибировала более миллиона часов видео на YouTube, чтобы получить высококачественные материалы для обучения модели GPT-4.

Сообщается, что компания знала, что такие действия юридически сомнительны и находятся в «серой зоне» авторского права. Однако она считает это добросовестным использованием материалов. Президент OpenAI Грег Брокман лично участвовал в сборе видео, которые были использованы.

OpenAI исчерпала запасы полезных данных в 2021 году и обсуждала транскрипцию видео YouTube, подкастов и аудиокниг после просмотра других ресурсов. К тому времени компания обучала свои модели на данных, которые включали компьютерный код из Github, базы данных ходов в шахматах и содержимое школьных заданий из Quizlet.

Пресс-секретарь OpenAI Линдсей Хелд сообщила, что компания курирует «уникальные» наборы данных для каждой из своих моделей, чтобы «помочь им понять мир» и поддерживать конкурентоспособность в глобальных исследованиях. При этом компания использует «многочисленные источники, включая общедоступные данные и партнерства для непубличных данных», и она ищет возможность генерировать собственные синтетические данные.

Представитель Google Мэтт Брайант заявил, что компания «видела неподтвержденные отчеты» о деятельности OpenAI, добавив, что «и наши файлы robots.txt, и Условия использования запрещают несанкционированное копирование или загрузку контента YouTube».

На днях генеральный директор YouTube Нил Мохан заявил, что использование данных платформы для обучения модели OpenAI — это нарушение условий использования. Поэтому Google принимает «технические и юридические меры», чтобы предотвратить такое несанкционированное использование, «если у нас есть для этого четкое правовое или техническое основание».

Онлайн-курс "Корпоративна культура" від Laba.
Як з нуля побудувати стабільну корпоративну культуру, систему внутрішньої комунікації та бренд роботодавця, з якими ви підвищите продуктивність команди, — пояснить HR-директор Work.ua.
Детальніше про курс

Согласно источникам Times, Google также собирала транскрипции с YouTube. Мэтт Брайант сказал, что компания обучала свои модели «некоторому контенту YouTube в соответствии с нашими соглашениями с создателями YouTube».

Meta также столкнулась с ограничениями доступности хороших обучающих данных, и ее команда ИИ обсуждала неразрешенное использование защищенных авторским правом произведений, чтобы догнать OpenAI. После просмотра «почти доступных англоязычных книг, эссе, стихов и новостных статей в интернете» компания рассматривала такие шаги, как оплата лицензий на книги или даже прямая покупка крупного издательства. Кроме того, она была ограничена в способах использования данных пользователей из-за изменений, направленных на конфиденциальность, которые она сделала после скандала с Cambridge Analytica.

Источник: The Verge

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: