Рубрики NoticiasSuaveTecnologías

OpenAI transcribió más de un millón de horas de vídeos de YouTube para la formación GPT-4

Опубликовал
Вадим Карпусь

Según The New York Times, OpenAI desarrolló el modelo de transcripción de audio Whisper y transcribió más de un millón de horas de vídeos de YouTube para obtener materiales de alta calidad para entrenar el modelo GPT-4.

Al parecer, la empresa era consciente de que tales acciones eran legalmente cuestionables y se encontraban en la «zona gris de los» derechos de autor. Sin embargo, considera que se trata de un uso justo de los materiales. El presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de los vídeos utilizados.

OpenAI agotó su reserva de datos útiles en 2021 y analizó la posibilidad de transcribir vídeos de YouTube, podcasts y audiolibros tras revisar otros recursos. Hasta entonces, la empresa entrenó sus modelos con datos que incluían código informático de Github, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.

La portavoz de OpenAI, Lindsay Held, dijo que la compañía cura «conjuntos de datos únicos» para cada uno de sus modelos para «ayudarles a entender el mundo» y mantenerse competitivos en la investigación global. Para ello, la empresa utiliza «numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para datos no públicos» y está tratando de generar sus propios datos sintéticos.

El portavoz de Google, Matt Bryant, dijo que la empresa «ha visto informes no confirmados» sobre las actividades de OpenAI, y añadió que «tanto nuestros archivos robots.txt como las Condiciones del servicio prohíben la copia o descarga no autorizada de contenido de YouTube».

Recientemente, el consejero delegado de YouTube, Neil Mohan dijoPor la presente le informamos de que el uso de los datos de la plataforma para entrenar el modelo OpenAI constituye una infracción de las condiciones de uso. Por lo tanto, Google tomará «medidas técnicas y legales» para evitar dicho uso no autorizado, «si tenemos una base legal o técnica clara para hacerlo».

Según fuentes del Times, Google también recopiló transcripciones de YouTube. Matt Bryant dijo que la empresa entrenó a sus modelos en «algunos contenidos de YouTube de conformidad con nuestros acuerdos con los creadores de YouTube».

Meta también se ha enfrentado a limitaciones en la disponibilidad de buenos datos de entrenamiento, y su equipo de IA ha estado discutiendo el uso no autorizado de obras protegidas por derechos de autor para ponerse al día con OpenAI. Tras revisar los libros, ensayos, poemas y artículos de noticias en inglés «casi disponibles en Internet» la empresa consideró medidas como pagar licencias de libros o incluso comprar directamente una editorial importante. Además, ha visto restringidas las formas en que utiliza los datos de los consumidores debido a los cambios relacionados con la privacidad que ha introducido a raíz del escándalo de Cambridge Analytica.

Fuente: The Verge

Los comentarios de Disqus están cargando....