Новини Технології 08.05.2024 о 19:49 comment views icon
Стаття з  

OpenAI знищила 100 000 книг, за якими тренували GPT-3. Причетні теж кудись зникли

author avatar
https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg *** https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg *** https://itc.ua/wp-content/uploads/2024/03/647dc38d9e7db-bpfull-1-96x96.jpg

Ігор Шелудченко

Автор новин

Розділ Технології виходить за підтримки Favbet Tech

Компанія OpenAI видалила два величезних набори даних «books1» і «books2», які використовувалися для навчання моделі GPT-3.

Про це повідомив Business Insider, посилаючись на матеріали судового позову Authors Guild.

Суть позову

Юристи Authors Guild заявили, що набори даних GPT-3, ймовірно, містили «понад 100 000 опублікованих книг». Таким чином OpenAI використовував захищені авторським правом матеріали для навчання моделей ШІ.

Довідка. Authors Guild — найстаріша (створена в 1912 році) та найавторитетніша професійна організація письменників США. Займається захистом свободи слова та захистом авторських прав. 

Протягом кількох місяців Authors Guild просила OpenAI надати інформацію про використані набори даних. Спочатку компанія відмовляла, мотивуючи це положеннями про конфіденційність. Але потім взагалі виявилося, що вона видалила всі копії даних.

Високоякісні навчальні дані є важливою частиною потужних моделей ШІ. Для побудови цих моделей OpenAI та інші компанії використовують дані з Інтернету, в тому числі й книги.

Онлайн-інтенсив "Як створити рекомендаційну модель за 2 дні" від robot_dreams.
Ви пройдете етапи вибору, навчання, оцінки рекомендаційної моделі для електронної бібліотеки та отримаєте індивідуальний фідбек від лекторки.
Приєднатись до інтенсиву

Багато компаній, які створили цю інформацію, хочуть отримувати гроші за надання інформації цим новим продуктам ШІ. Технологічні компанії не хочуть, щоб їх змушували платити . Зараз цей спір вирішується в суді за кількома позовами.

100 000 книг — 16% навчальних даних GPT-3

У технічному документі 2020 року OpenAI описав набори даних books1 і books2 як «корпуси книжок з Інтернету» і заявив, що загалом це 16% навчальних даних, які були використані при створенні GPT-3.

У документі також сказано, що «books1» і «books2» разом містили 67 мільярдів токенів, або приблизно 50 мільярдів слів.

OpenAI припинила використовувати «books1» і «books2» для навчання моделей наприкінці 2021 року. В середині 2022 року їх видалили — через «непридатність для використання».

Також в документах йдеться про те, що двоє дослідників, які створили набори даних «books1» і «books2», більше не працюють в OpenAI. OpenAI відмовляється розкривати інформацію про них, хоча й Authors Guild наполягає на цьому.

Онлайн-інтенсив "Як створити рекомендаційну модель за 2 дні" від robot_dreams.
Ви пройдете етапи вибору, навчання, оцінки рекомендаційної моделі для електронної бібліотеки та отримаєте індивідуальний фідбек від лекторки.
Приєднатись до інтенсиву

OpenAI звернувся до суду з проханням зберегти імена співробітників, а також інформацію про набори даних.

«Моделі, які сьогодні використовують ChatGPT і наш API, не були створені з використанням цих наборів даних», — йдеться в заяві OpenAI у вівторок.

Нагадаємо, була історія, коли ШІ-дослідниця та ексменеджерка Amazon Вівіан Гадері звинувачувала колишнього роботодавця в порушенні вимог щодо авторського права.

У березні директор її команди поставив завдання — знайти причини, чому Amazon не досягає своїх цілей щодо якості пошуку Alexa. В розмові він порекомендував для покращення результатів ігнорувати політику авторського права. Директор попросив звернути увагу на конкурентів зі словами «усі так роблять».

Розділ Технології виходить за підтримки Favbet Tech

Favbet Tech – це ІТ-компанія зі 100% українською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологій та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців. IT-компанія входить у групу компаній FAVBET.


Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: