Рубрики NoticiasCiencia y espacio

La inteligencia artificial GPT-4.5 de OpenAI supera el test de Turing «con más frecuencia que las personas reales», — investigación

Publicado por Oleksandr Fedotkin

Investigadores de la Universidad de California en San Diego han demostrado por primera vez el paso de sistemas de inteligencia artificial una versión a tres bandas del clásico test de TuringEl test debe su nombre al matemático e informático británico Alan Turing. Turing sugirió que una forma de evaluar la inteligencia de una máquina era hacer que mantuviera una conversación de texto con un humano que, al mismo tiempo, mantuviera correspondencia con otra persona que no estuviera a la vista. Si la persona que hace la pregunta es incapaz de distinguir dónde está el ordenador y dónde está la persona, significa que la inteligencia artificial puede pensar como un ser humano.

En concreto, en la prueba participaron el modelo de IA LLama 3.1-405B de Meta, los modelos GPT-4o y GPT-4.5 de OpenAI y el primer programa de asistente virtual del mundo, ELIZA, desarrollado por Joseph Weizenbaum hace unos 80 años. Entre ellos, la versión GPT-4.5 fue percibida como otra persona real en el 73% de los casos por las personas que realizaron la prueba.

En la versión de tres vías del clásico test de Turing, dos personas y una persona participaron en cada ronda de comunicación sistema de inteligencia artificial. Las personas tenían que determinar si se estaban comunicando con una IA o con otra persona real en función de los resultados de la conversación. Los participantes recibieron dos diálogos paralelos con un humano y una IA, durante 5 minutos podían hacer cualquier pregunta y utilizar cualquier estrategia para entender dónde estaba cada uno, y luego tenían que votar.

Los investigadores probaron cada modelo 2 veces en dos escenarios básicos del sistema. En el primer caso, se encargó abiertamente a la IA que engañara al participante humano haciéndole creer que se comunicaba con un interlocutor real. En el segundo caso, no se dieron instrucciones específicas a la IA sobre lo que debía hacer, sino que simplemente se le pidió que imitara a un joven interesado en la cultura de Internet y en el uso de la jerga en la comunicación.

Fue el segundo escenario el que tuvo más éxito los sistemas de inteligencia artificial obtuvieron mejores resultados. En un escenario en el que se encargó abiertamente a las IA que engañaran a interlocutores reales, el porcentaje de éxito de GPT-4.5 fue sólo del 36%. En cambio, cuando se hizo pasar por un hombre joven, este modelo consiguió engañar a los dos interlocutores reales y obtuvo una tasa de éxito del 73%.

Cameron R. Jones, Benjamin K. Bergen

La IA LLama 3.1-405B de Meta alcanzó el 56%, lo que está muy bien, pero aún así se acerca más al azar adivinanzas. Pero, curiosamente, los resultados de ELIZA (23%) fueron mejores que los de GPT-4o (21%).

«Las personas fueron incapaces de distinguir entre personas de GPT-4.5 y LLaMa Y 4,5 incluso fue calificado de humano mucho más a menudo que las personas reales», — comenta sobre los resultados del estudio su autor principal, investigador del Laboratorio de Lenguaje y Cognición de la Universidad de California en San Diego Cameron Jones.

A pesar de que el propio test de Turing ha quedado obsoleto para el mundo real evaluación de las capacidades mentales de los modernos sistemas de inteligencia artificial, este estudio demuestra claramente cómo los sistemas avanzados de IA entrenados con un gran número de textos compuestos por humanos han aprendido a imitarnos de forma realista. Aunque la inteligencia artificial no comprenda la esencia de la pregunta, ya es capaz de producir una versión suficientemente verosímil de la respuesta y hacernos creer realmente que estamos ante un ser humano.

«Creo que los resultados aportan más pruebas de que la IA puede sustituir a los humanos en interacciones a corto plazo sin que nadie se dé cuenta Esto podría conducir potencialmente a la automatización del trabajo, a la mejora de los procesos de ingeniería social y a una agitación social más general», — opina Cameron Jones.

Se ha llevado a cabo lo siguiente investigación sigue pendiente de revisión.

Fuente: Futurism