Depositphotos
Investigadores japoneses de la Universidad de Osaka han descubierto la capacidad de los modelos generativos de inteligencia artificial Vision Transformers (ViT) desarrollar espontáneamente mecanismos procesamiento visual de información similares a los humanos.
En un nuevo estudio, los investigadores han demostrado que el derecho método de enseñanza permite a la IA recrear de forma independiente mecanismos de procesamiento visual similares a los humanos. Los investigadores compararon datos de seguimiento ocular humano y modelos de procesamiento visual generados por ViT. Los modelos de IA se entrenaron con un método DINO especial sin utilizar filtros fijos para el análisis de imágenes.
Los modelos ViT entrenados con DINO demostraron un procesamiento de la información visual cercano a la forma en que los adultos ven los videoclips. En cambio, los modelos entrenados con filtros fijos y algoritmos mostraron un procesamiento visual poco natural.
«Nuestros modelos no se limitaron a prestar atención aleatoriamente a las escenas visuales, sino que desarrollaron espontáneamente funciones especializadas. Un subgrupo de modelos se centró sistemáticamente en los rostros, otro captó los contornos de figuras enteras y el tercero prestó atención principalmente a las características del fondo. Esto refleja fielmente cómo el sistema visual humano segmenta e interpreta las escenas», — explica el autor principal del estudio Takuto Yamamoto.
Un análisis más minucioso confirmó que las capacidades que acercaban el procesamiento visual Modelos de IA a la humana, surgió de forma natural como resultado del entrenamiento de la DINO. Estos patrones de procesamiento visual eran cualitativamente similares a la mirada humana y cuantitativamente coherentes con los datos de seguimiento ocular establecidos, especialmente en escenas con personas.
«Este resultado es notable porque a estos modelos nunca se les ha dicho lo que es una cara. Sin embargo, aprendieron a dar prioridad a las caras, al parecer porque así maximizaban la información que recibían del entorno. Se trata de una demostración convincente de que el aprendizaje autosupervisado puede captar algo fundamental sobre la forma en que los sistemas inteligentes, incluidos los humanos, aprenden del mundo», — notas autor principal del estudio, Shigeru Kitazawa.
Los resultados del estudio se publicaron en la revista Neural Networks
Fuente: TechXplore