
En enero de 2025, durante el juicio proceso resultó que la Meta de Mark Zuckerberg para Entrenamiento en IA para llamas ha utilizado ilegalmente millones de libros. Ahora puede averiguar cuáles.
Los grandes modelos lingüísticos de inteligencia artificial requieren enormes conjuntos de datos de texto para entrenarse y reproducir la coincidencia exacta de palabras en un idioma. De hecho, los materiales originales legales para inteligencia artificial son cada vez más difíciles de encontrar.
«Nos estamos quedando literalmente sin texto en el universo sobre el que entrenar estos sistemas», — dijo el informático Stuart Russell allá por 2023
Meta, la empresa matriz de Facebook e Instagram, se ha visto obligada a levantar el velo sobre cómo se hace realmente. Un caso judicial reveló el hecho de que Meta había descargado ilegalmente la conocida biblioteca pirata LibGen para obtener millones de textos protegidos legalmente. Después, los programadores recibieron la aprobación de en persona de Zuckerberg, los libros fueron cedidos ilegalmente para estudios de LLM. Así, una de las mayores empresas del mundo no pagó ni un solo ejemplar de estos libros.
Sitio web The Atlantic ha creado un motor de búsqueda que permite identificar qué libros han sido utilizados por Meta en los archivos LibGen. Se trata de una cantidad ingente de datos que abarca más de 7,5 millones de libros, unos 81 millones de artículos científicos y otras obras.
La demanda fue liderada por los autores Ta-Nehisi Coates y Sarah Silverman, que tenían conocimiento de la piratería de datos de Meta a través de una demanda anterior en 2023. La nueva herramienta de búsqueda permite a escritores y científicos ver qué trabajos han sido «estafados» por una corporación para entrenar IA comercial.
«Mi libro está aquí — ¡y eso es bueno! LibGen pone textos a disposición de personas que de otro modo no tendrían acceso. El problema no es que LibGen ponga contenidos a disposición de forma gratuita, sino que Meta los roba con fines lucrativos», — afirma Justin Ling, autor de Wired.
No se espera una decisión final en el proceso en curso hasta el verano. Mientras tanto, Llama funciona y es gratis en plataformas como Facebook, Instagram y WhatsApp. No es la única demanda de este tipo contra una gran empresa: hace un año los autores demandaron a NVIDIA.
Fuente: Futurism
Spelling error report
The following text will be sent to our editors: