Новости Технологии 08.05.2024 в 20:03 comment views icon
Статья с  

OpenAI уничтожила 100 000 книг, по которым тренировали GPT-3. Причастные тоже куда-то исчезли

author avatar
https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg *** https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg *** https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg

Ігор Шелудченко

Автор новостей

Раздел Технологии выходит при поддержке Favbet Tech

Компания OpenAI удалила два огромных набора данных «books1» и «books2», которые использовались для обучения модели GPT-3.

Об этом сообщил Business Insider, ссылаясь на материалы судебного иска Authors Guild.

Суть иска

Юристы Authors Guild заявили, что наборы данных GPT-3, вероятно, содержали «более 100 000 опубликованных книг». Таким образом OpenAI использовал защищенные авторским правом материалы для обучения моделей ИИ.

Справка. Authors Guild — старейшая (создана в 1912 году) и самая авторитетная профессиональная организация писателей США. Занимается защитой свободы слова и  авторских прав.

В течение нескольких месяцев Authors Guild просила OpenAI предоставить информацию об использованных наборах данных. Сначала компания отказывала, мотивируя это положениями о конфиденциальности Но потом вообще оказалось, что она удалила все копии данных.

Высококачественные учебные данные являются важной частью мощных моделей ИИ. Для построения этих моделей OpenAI и другие компании используют данные из Интернета, в том числе и книги.

Англійська для початківців від Englishdom.
Для тих, хто тільки починає вивчати англійську і хоче вміти використовувати базову лексику і граматику.
Реєстрація на курс

Многие компании, которые создали эту информацию, хотят получать деньги за предоставление информации этим новым продуктам ИИ. Технологические компании не хотят, чтобы их заставляли платить. Сейчас этот спор решается в суде по нескольким искам.

100 000 книг — 16% учебных данных GPT-3

В техническом документе 2020 года OpenAI описал наборы данных books1 и books2 как «корпус книг из Интернета» и заявил, что в целом это 16% учебных данных, которые были использованы при создании GPT-3.

В документе также говорится, что «books1» и «books2» вместе содержали 67 миллиардов токенов, или примерно 50 миллиардов слов.

OpenAI прекратила использовать «books1» и «books2» для обучения моделей в конце 2021 года В середине 2022 года их удалили — из-за «непригодности для использования».

Также в документах говорится о том, что двое исследователей, которые создали наборы данных «books1» и «books2», больше не работают в OpenAI. OpenAI отказывается раскрывать информацию о них, хотя и Authors Guild настаивает на этом.

Англійська для початківців від Englishdom.
Для тих, хто тільки починає вивчати англійську і хоче вміти використовувати базову лексику і граматику.
Реєстрація на курс

OpenAI обратился в суд с просьбой сохранить имена сотрудников, а также информацию о наборах данных.

«Модели, которые сегодня используют ChatGPT и наш API, не были созданы с использованием этих наборов данных», — говорится в заявлении OpenAI во вторник.

Напомним, была история, когда ИИ-исследовательница и экс-менеджер Amazon Вивиан Гадери обвиняла бывшего работодателя в нарушении требований по авторскому праву.

В марте директор ее команды поставил задачу — найти причины, почему Amazon не достигает своих целей по качеству поиска Alexa. В разговоре он порекомендовал для улучшения результатов игнорировать политику авторского права. Директор попросил обратить внимание на конкурентов со словами «все так делают».

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: