OpenAI destruyó 100.000 libros utilizados para entrenar a GPT-3. Los implicados también han desaparecido

Опубликовал

Ігор Шелудченко

08.05.2024 20:03

OpenAI ha eliminado dos enormes conjuntos de datos «libros1» y «libros2» que se utilizaron para entrenar el modelo GPT-3.

Esto fue comunicado por Business Insider, refiriéndose a los materiales de la demanda del Gremio de Autores.

La esencia de la reclamación

Los abogados del Gremio de Autores dijeron que los conjuntos de datos GPT-3 contenían supuestamente «más de 100.000 libros publicados». Así, OpenAI utilizó materiales protegidos por derechos de autor para entrenar modelos de IA.

Referencia. The Authors Guild es la organización profesional de escritores más antigua (fundada en 1912) y respetada de Estados Unidos. Se dedica a proteger la libertad de expresión y los derechos de autor

Durante varios meses, Authors Guild pidió a OpenAI que facilitara información sobre los conjuntos de datos utilizados. Al principio, la empresa se negó alegando cláusulas de confidencialidad Pero luego resultó que había borrado todas las copias de los datos.

Los datos de entrenamiento de alta calidad son una parte importante de los modelos de IA potentes. OpenAI y otras empresas utilizan datos de Internet, incluidos libros, para construir estos modelos.

Muchas de las empresas que crearon esta información quieren que se les pague por facilitarla a estos nuevos productos de IA. Las empresas tecnológicas no quieren que se les obligue a pagar. Esta disputa se está dirimiendo actualmente en los tribunales mediante varias demandas.

100.000 libros — 16% de los datos de entrenamiento GPT-3

En el documento técnico de 2020, OpenAI describió los conjuntos de datos books1 y books2 como «corpus de libros de la web» y afirmó que, en total, representan el 16% de los datos de entrenamiento utilizados para crear GPT-3.

El documento también afirma que «books1» y «books2» contienen en conjunto 67.000 millones de tokens, o aproximadamente 50.000 millones de palabras.

OpenAI dejó de utilizar «books1» y «books2» para el entrenamiento de modelos a finales de 2021 A mediados de 2022, se retiraron — debido a «inutilidad».

Los documentos también afirman que los dos investigadores que crearon los conjuntos de datos «libros1» y «libros2» ya no trabajan para OpenAI. OpenAI se niega a revelar información sobre ellos, aunque el Gremio de Autores insiste en hacerlo.

OpenAI ha pedido al tribunal que preserve los nombres de los empleados y la información sobre los conjuntos de datos.

«Los modelos que utilizan ChatGPT y nuestra API hoy no se crearon utilizando estos conjuntos de datos», — dijo OpenAI en un comunicado el martes.

Como recordatorio, hubo una historia cuando la investigadora de IA y ex gerente de Amazon Vivian Gadery acusó a su antiguo empleador de infringir los derechos de autor.

En marzo, la directora de su equipo estableció una tarea — encontrar las razones por las que Amazon no está logrando sus objetivos de calidad en la búsqueda de Alexa. En la conversación, recomendó ignorar la política de derechos de autor para mejorar los resultadosEl director me pidió que prestara atención a los competidores con las palabras «todos lo hacen».

Los comentarios de Disqus están cargando....

Поделитесь в соцсетях