Новини Софт 08.04.2024 о 09:58 comment views icon

OpenAI транскрибувала понад мільйон годин YouTube-відео для навчання GPT-4

author avatar
https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg *** https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg *** https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg

Вадим Карпусь

Автор новин

Розділ Технології виходить за підтримки Favbet Tech

За даними The New York Times, OpenAI розробила модель аудіотранскрипції Whisper та транскрибувала понад мільйон годин відео на YouTube, щоб отримати високоякісні матеріали для навчання моделі GPT-4.

Повідомляється, що компанія знала, що такі дії є юридично сумнівними та знаходяться в «сірій зоні» авторського права. Однак вона вважає це добросовісним використанням матеріалів. Президент OpenAI Грег Брокман особисто брав участь у зборі відео, які були використані.

OpenAI вичерпала запаси корисних даних у 2021 році та обговорювала транскрипцію відео YouTube, подкастів і аудіокниг після перегляду інших ресурсів. До того часу компанія навчала свої моделі на даних, які включали комп’ютерний код із Github, бази даних ходів у шахах і вміст шкільних завдань із Quizlet.

Прессекретар OpenAI Ліндсей Хелд повідомила, що компанія курує «унікальні» набори даних для кожної зі своїх моделей, щоб «допомогти їм зрозуміти світ» і підтримувати конкурентоспроможність у глобальних дослідженнях. При цьому компанія використовує «численні джерела, включаючи загальнодоступні дані та партнерства для непублічних даних», і вона шукає можливість генерувати власні синтетичні дані.

Представник Google Метт Брайант заявив, що компанія «бачила непідтверджені звіти» про діяльність OpenAI, додавши, що «і наші файли robots.txt, і Умови використання забороняють несанкціоноване копіювання або завантаження вмісту YouTube».

Днями генеральний директор YouTube Ніл Мохан заявив, що використання даних платформи для навчання моделі OpenAI – це порушення умов використання. Тому Google вживає «технічних і юридичних заходів», щоб запобігти такому несанкціонованому використанню, «якщо у нас є для цього чітка правова або технічна підстава».

Курс Power Skills For Tech від Enlgish4IT.
Зменшіть кількість непорозумінь на робочому місці та станьте більш ефективним у спілкуванні в мультикультурній команді. Отримайте знижку 10% за промокодом ITCENG.
Реєстрація на курс

Згідно з джерелами Times, Google також збирала транскрипції з YouTube. Метт Брайант сказав, що компанія навчала свої моделі «деякому контенту YouTube відповідно до наших угод із творцями YouTube».

Meta також зіткнулася з обмеженнями доступності хороших навчальних даних, і її команда ШІ обговорювала недозволене використання захищених авторським правом творів, щоб наздогнати OpenAI. Після перегляду «майже доступних англомовних книг, есе, віршів і новинних статей в інтернеті» компанія розглядала такі кроки, як оплата ліцензій на книги або навіть пряма покупка великого видавництва. Крім того, вона була обмежена у способах використання даних споживачів через зміни, спрямовані на конфіденційність, які вона зробила після скандалу з Cambridge Analytica.

Джерело: The Verge

Розділ Технології виходить за підтримки Favbet Tech

Favbet Tech – це ІТ-компанія зі 100% українською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологій та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців. IT-компанія входить у групу компаній FAVBET.


Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: