Noticias Tecnologías 11-26-2024 a las 14:37 comment views icon

La inteligencia artificial ha utilizado más de 140.000 películas y series de televisión para entrenar

author avatar

Kateryna Danshyna

Redactor de noticias

La inteligencia artificial ha utilizado más de 140.000 películas y series de televisión para entrenar

Página web The Atlantic examinó el conjunto de datos utilizado para entrenar los modelos de IA propiedad de Apple, Anthropic y Nvidia, entre otros, y descubrió que los temores de la industria sobre la nueva tecnología están lejos de ser infundados.

El conjunto de datos incluía elementos de al menos 53.000 películas y 85.000 programas de televisión: entre ellos, todas las películas nominadas a «Mejor Película» entre 1950 y 2016, unos 600 episodios de «Los Simpson», 170 episodios de «Seinfeld», 45 episodios de «Twin Peaks», y todos los episodios de «Breaking Bad» y «Los Soprano». El conjunto de datos también contenía «diálogos en directo» de las retransmisiones «de los Globos de Oro» y «de los Óscar».

The Atlantic señala que los textos del conjunto de datos no son guiones originales, sino subtítulos extraídos de OpenSubtitles.org. Los usuarios suelen extraerlos de DVD, Blu-rays y servicios de streaming mediante software de reconocimiento óptico de caracteres y luego los suben al sitio (actualmente, cuenta con más de 9 millones de archivos de subtítulos en más de 100 idiomas y dialectos).

Además, algunas empresas mencionan el uso de subtítulos en sus artículos de investigación: Anthropic entrenó a su chatbot Claude con ellos, Meta — un grupo de grandes modelos lingüísticos llamado Open Pre-trained Transformer (OPT), Apple — LLMs que pueden funcionar en el iPhone, y Nvidia — NeMo Megatron LLM. Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras, y otros desarrolladores de IA también han estado utilizando activamente OpenSubtitles.org «utilizado» Salesforce, Bloomberg, EleutherAI, y otros desarrolladores de IA.

Apple señaló en un comentario que sus LLM están destinados «únicamente a fines de investigación, mientras que Salesforce hizo hincapié en que el conjunto de datos «nunca se ha utilizado para informar o mejorar cualquiera de las ofertas de productos de la compañía. Las demás empresas mencionadas en el artículo declinaron hacer comentarios o no respondieron a las preguntas.

La cuestión de la legalidad del uso de datos para entrenar inteligencia artificial sigue abierta — desde el «boom de los» bots de texto tras el lanzamiento de ChatGPT. La transparencia de las empresas sigue siendo bastante baja y solo un tribunal puede obligarlas a revelar datos — pero, El caso de OpenAI demostró que esta información también puede desaparecer de repente.

Parece que el guionista de «Breaking Bad» Vince Gilligan estaba en lo cierto cuando llamó a la inteligencia artificial generativa «una forma de plagio extremadamente compleja y que consume mucha energía» — Me pregunto cómo habría reaccionado ante el hecho de que la tecnología se esté apoderando ya de los diálogos que él escribió



Spelling error report

The following text will be sent to our editors: