Новости Технологии 08.05.2024 в 20:03 comment views icon
Статья с  

OpenAI уничтожила 100 000 книг, по которым тренировали GPT-3. Причастные тоже куда-то исчезли

author avatar
https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg *** https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg *** https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg

Ігор Шелудченко

Автор новостей

Раздел Технологии выходит при поддержке Favbet Tech

Компания OpenAI удалила два огромных набора данных «books1» и «books2», которые использовались для обучения модели GPT-3.

Об этом сообщил Business Insider, ссылаясь на материалы судебного иска Authors Guild.

Суть иска

Юристы Authors Guild заявили, что наборы данных GPT-3, вероятно, содержали «более 100 000 опубликованных книг». Таким образом OpenAI использовал защищенные авторским правом материалы для обучения моделей ИИ.

Справка. Authors Guild — старейшая (создана в 1912 году) и самая авторитетная профессиональная организация писателей США. Занимается защитой свободы слова и  авторских прав.

В течение нескольких месяцев Authors Guild просила OpenAI предоставить информацию об использованных наборах данных. Сначала компания отказывала, мотивируя это положениями о конфиденциальности Но потом вообще оказалось, что она удалила все копии данных.

Высококачественные учебные данные являются важной частью мощных моделей ИИ. Для построения этих моделей OpenAI и другие компании используют данные из Интернета, в том числе и книги.

Практичний інтенсивний курс з дизайну - Design Booster від Powercode academy.
Навчіться дизайну з нуля за 3 місяці і заробляйте перші $1000, навіть якщо ви не маєте креативного мислення, смаку або вміння малювати. Отримайте практичні навички, необхідні для успішної кар'єри в дизайні.
Зарееструватися

Многие компании, которые создали эту информацию, хотят получать деньги за предоставление информации этим новым продуктам ИИ. Технологические компании не хотят, чтобы их заставляли платить. Сейчас этот спор решается в суде по нескольким искам.

100 000 книг — 16% учебных данных GPT-3

В техническом документе 2020 года OpenAI описал наборы данных books1 и books2 как «корпус книг из Интернета» и заявил, что в целом это 16% учебных данных, которые были использованы при создании GPT-3.

В документе также говорится, что «books1» и «books2» вместе содержали 67 миллиардов токенов, или примерно 50 миллиардов слов.

OpenAI прекратила использовать «books1» и «books2» для обучения моделей в конце 2021 года В середине 2022 года их удалили — из-за «непригодности для использования».

Также в документах говорится о том, что двое исследователей, которые создали наборы данных «books1» и «books2», больше не работают в OpenAI. OpenAI отказывается раскрывать информацию о них, хотя и Authors Guild настаивает на этом.

Практичний інтенсивний курс з дизайну - Design Booster від Powercode academy.
Навчіться дизайну з нуля за 3 місяці і заробляйте перші $1000, навіть якщо ви не маєте креативного мислення, смаку або вміння малювати. Отримайте практичні навички, необхідні для успішної кар'єри в дизайні.
Зарееструватися

OpenAI обратился в суд с просьбой сохранить имена сотрудников, а также информацию о наборах данных.

«Модели, которые сегодня используют ChatGPT и наш API, не были созданы с использованием этих наборов данных», — говорится в заявлении OpenAI во вторник.

Напомним, была история, когда ИИ-исследовательница и экс-менеджер Amazon Вивиан Гадери обвиняла бывшего работодателя в нарушении требований по авторскому праву.

В марте директор ее команды поставил задачу — найти причины, почему Amazon не достигает своих целей по качеству поиска Alexa. В разговоре он порекомендовал для улучшения результатов игнорировать политику авторского права. Директор попросил обратить внимание на конкурентов со словами «все так делают».

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.

Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: