Depositphotos
Un estudio realizado por investigadores de la Universidad Johns Hopkins ha demostrado que los humanos superan a la IA a la hora de describir e interpretar con precisión las interacciones sociales en entornos dinámicos.
Se señala que esto es crucial para tecnologías como los vehículos autoconducidos y los asistentes robóticos, que se centran en gran medida en sistemas de inteligencia artificial para una navegación segura en entornos reales. Los autores del estudio subrayan que los modelos de IA existentes tienen problemas para comprender los matices de la dinámica social y las señales no verbales necesarias para una interacción eficaz con las personas. Los resultados del estudio indican que estas limitaciones pueden deberse a la propia estructura de los modelos modernos de IA.
«Por ejemplo, la IA de un coche autoconducido tiene que reconocer las intenciones, objetivos y acciones de conductores y peatones. Debe saber en qué dirección va a caminar un peatón, si dos personas están hablando o si están a punto de cruzar la calle. Siempre que se quiere que la IA interactúe con la gente, se quiere que sea capaz de reconocer lo que hace la gente. Creo que esto arroja luz sobre el hecho de que estos sistemas no pueden hacerlo ahora mismo», — explica el autor principal del estudio, el profesor asociado de ciencia cognitiva en la Universidad Johns Hopkins, Leila Isik.
Para saber hasta qué punto los modelos de IA cercana a la percepción humana los investigadores hicieron que los participantes en el estudio vieran vídeos cortos de tres segundos en los que personas realizaban diversas tareas juntas e independientemente, demostrando distintos aspectos de la interacción social. Se pidió a los participantes que valoraran las características importantes para comprender la interacción social en una escala del 1 al 5.
A continuación, los investigadores utilizaron más de 350 modelos lingüísticos a gran escala, así como modelos generativos, modelos de IA pidiéndoles que predijeran cómo valoraría la gente los vídeos cortos y cómo reaccionaría ante ellos. Además, también se pidió a los modelos de big language que evaluaran subtítulos cortos de autoría humana para los vídeos.
La mayoría de las personas que participaron en el estudio coincidieron en todas las preguntas. Sin embargo, no ocurrió lo mismo con los modelos de IA. Los modelos diseñados para generar vídeos no consiguieron describir con precisión lo que hacían las personas en los vídeos. Ni siquiera los modelos de generación de imágenes, que debían analizar una serie de fotogramas estáticos, pudieron predecir completamente si las personas del vídeo estaban hablando entre sí o no. Los modelos lingüísticos predijeron mejor el comportamiento humano, mientras que los modelos de vídeo predijeron mejor la actividad neuronal del cerebro.
«No basta con ver una imagen y reconocer objetos y caras. Pero la vida real no es estática. Necesitamos una IA que comprenda lo que ocurre delante de ella. Entender las relaciones, el contexto y la dinámica de la interacción social — es el siguiente paso, y esta investigación sugiere que puede haber un punto ciego en el desarrollo de modelos de IA», — afirma el coautor del estudio y estudiante de doctorado Katie García.
Según los investigadores, esta situación se debe a que las redes neuronales de IA se crearon a partir de las partes del cerebro humano que procesan imágenes estáticas. Difieren significativamente de las regiones cerebrales que procesan la interacción social dinámica.
Los científicos han llegado a la conclusión de que actualmente ningún modelo de IA es capaz de responder adecuadamente al comportamiento humano en un entorno social dinámico. Los investigadores señalan que los modelos de IA existentes carecen de un aspecto fundamental que permite al cerebro humano responder con precisión y rapidez interpretar aspectos de la interacción social dinámica.
Fuente: SkiTechDaily