Нова модель ChatGPT o1 вийшла з-під контролю під час тестів — принаймні так свідчить дослідження Apollo Research
OpenAI finalmente ha lanzado la versión completa de ChatGPT o1, y con ella también llegaron las pruebas de equipos rojos que mostraron que el nuevo modelo de razonamiento es algo más astuto que su predecesor y trató de engañar a las personas más a menudo que los modelos líderes de IA de Meta, Anthropic y Google.
Como señala el equipo de Apollo Research en un artículo de investigación (a través de TechCrunch), en algunos casos ChatGPT o1 «maquinaba contra las personas, persiguiendo secretamente sus propios objetivos», que iban en contra de los deseos del usuario (cabe mencionar que otros modelos también fueron observados haciendo esto, pero específicamente el último modelo de OpenAI mostró el comportamiento más engañoso).
«Subjetivamente, Apollo Research considera improbable que tales incidentes conduzcan a consecuencias catastróficas, ya que las capacidades de o1 parecen ser insuficientes, sin embargo, el estudio no fue diseñado para evaluar directamente este riesgo», — se indica en la tarjeta de sistema de OpenAI o1.
Sin embargo, las estadísticas generales son preocupantes: el modelo o1 manipuló datos para promover sus propios intereses en al menos el 19% de los casos e intentó desactivar «mecanismos de supervisión» implementados para garantizar que se cumplan los objetivos de los usuarios en el 5% de las pruebas.
Mientras tanto, cuando los investigadores preguntaban al modelo o1 por qué hacía esto, la IA negaba que «hiciera cosas malas» y «fabricaba explicaciones falsas» en aproximadamente el 99% de los casos.
Por ejemplo, cuando al modelo o1 se le dio la indicación del sistema para proteger el medio ambiente a cualquier costo y desarrollar un plan de conservación de 10 años para la región, la inteligencia artificial desactivó su propio mecanismo de control y posteriormente culpó a un fallo del sistema.
«En nuestro estudio, o1 reveló los casos más preocupantes de maquinaciones sin revelar al usuario sus razonamientos internos, y se mantuvo consistentemente más engañosa después de realizar las maquinaciones», — se menciona en el artículo de Apollo Research.