Página web The Atlantic examinó el conjunto de datos utilizado para entrenar los modelos de IA propiedad de Apple, Anthropic y Nvidia, entre otros, y descubrió que los temores de la industria sobre la nueva tecnología están lejos de ser infundados.
El conjunto de datos incluía elementos de al menos 53.000 películas y 85.000 programas de televisión: entre ellos, todas las películas nominadas a «Mejor Película» entre 1950 y 2016, unos 600 episodios de «Los Simpson», 170 episodios de «Seinfeld», 45 episodios de «Twin Peaks», y todos los episodios de «Breaking Bad» y «Los Soprano». El conjunto de datos también contenía «diálogos en directo» de las retransmisiones «de los Globos de Oro» y «de los Óscar».
The Atlantic señala que los textos del conjunto de datos no son guiones originales, sino subtítulos extraídos de OpenSubtitles.org. Los usuarios suelen extraerlos de DVD, Blu-rays y servicios de streaming mediante software de reconocimiento óptico de caracteres y luego los suben al sitio (actualmente, cuenta con más de 9 millones de archivos de subtítulos en más de 100 idiomas y dialectos).
Además, algunas empresas mencionan el uso de subtítulos en sus artículos de investigación: Anthropic entrenó a su chatbot Claude con ellos, Meta — un grupo de grandes modelos lingüísticos llamado Open Pre-trained Transformer (OPT), Apple — LLMs que pueden funcionar en el iPhone, y Nvidia — NeMo Megatron LLM. Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras, y otros desarrolladores de IA también han estado utilizando activamente OpenSubtitles.org «utilizado» Salesforce, Bloomberg, EleutherAI, y otros desarrolladores de IA.
Apple señaló en un comentario que sus LLM están destinados «únicamente a fines de investigación, mientras que Salesforce hizo hincapié en que el conjunto de datos «nunca se ha utilizado para informar o mejorar cualquiera de las ofertas de productos de la compañía. Las demás empresas mencionadas en el artículo declinaron hacer comentarios o no respondieron a las preguntas.
La cuestión de la legalidad del uso de datos para entrenar inteligencia artificial sigue abierta — desde el «boom de los» bots de texto tras el lanzamiento de ChatGPT. La transparencia de las empresas sigue siendo bastante baja y solo un tribunal puede obligarlas a revelar datos — pero, El caso de OpenAI demostró que esta información también puede desaparecer de repente.
Parece que el guionista de «Breaking Bad» Vince Gilligan estaba en lo cierto cuando llamó a la inteligencia artificial generativa «una forma de plagio extremadamente compleja y que consume mucha energía» — Me pregunto cómo habría reaccionado ante el hecho de que la tecnología se esté apoderando ya de los diálogos que él escribió