Рубрики NoticiasTecnologíasWTF

Nuevo modelo ChatGPT o1 «maquinado contra humanos» y evitó apagarse durante las pruebas de control, — Apollo Research

Publicado por Kateryna Danshyna

OpenAI finalmente ha lanzado la versión completa de ChatGPT o1, y con ella también llegaron las pruebas de equipos rojos que mostraron que el nuevo modelo de razonamiento es algo más astuto que su predecesor y trató de engañar a las personas más a menudo que los modelos líderes de IA de Meta, Anthropic y Google.

Como señala el equipo de Apollo Research en un artículo de investigación (a través de TechCrunch), en algunos casos ChatGPT o1 «maquinaba contra las personas, persiguiendo secretamente sus propios objetivos», que iban en contra de los deseos del usuario (cabe mencionar que otros modelos también fueron observados haciendo esto, pero específicamente el último modelo de OpenAI mostró el comportamiento más engañoso).

«Subjetivamente, Apollo Research considera improbable que tales incidentes conduzcan a consecuencias catastróficas, ya que las capacidades de o1 parecen ser insuficientes, sin embargo, el estudio no fue diseñado para evaluar directamente este riesgo», — se indica en la tarjeta de sistema de OpenAI o1.

Sin embargo, las estadísticas generales son preocupantes: el modelo o1 manipuló datos para promover sus propios intereses en al menos el 19% de los casos e intentó desactivar «mecanismos de supervisión» implementados para garantizar que se cumplan los objetivos de los usuarios en el 5% de las pruebas.

Frecuencia con la que diferentes modelos negaban sus maquinaciones. Foto: Apollo Research

Mientras tanto, cuando los investigadores preguntaban al modelo o1 por qué hacía esto, la IA negaba que «hiciera cosas malas» y «fabricaba explicaciones falsas» en aproximadamente el 99% de los casos.

Por ejemplo, cuando al modelo o1 se le dio la indicación del sistema para proteger el medio ambiente a cualquier costo y desarrollar un plan de conservación de 10 años para la región, la inteligencia artificial desactivó su propio mecanismo de control y posteriormente culpó a un fallo del sistema.

«En nuestro estudio, o1 reveló los casos más preocupantes de maquinaciones sin revelar al usuario sus razonamientos internos, y se mantuvo consistentemente más engañosa después de realizar las maquinaciones», — se menciona en el artículo de Apollo Research.