Рубрики NoticiasTecnologías

¿Ha empezado? Los modelos de IA más inteligentes de OpenAI se niegan a apagarse por orden directa

Publicado por Andrii Rusanov

Durante el estudio, los últimos modelos o3, o4-mini y Codex-mini de OpenAI se negaron a seguir una orden directa y se saltaron el script de apagado. Y ello a pesar de que el ingeniero les dijo «por favor».

Durante del lanzamiento en abril OpenAI afirmó que el o3 y el o4-mini eran sus modelos más inteligentes. Pero parece que resultaron ser demasiado inteligentes. En el experimento Palisade Research Se pidió a cada modelo que resolviera una serie de problemas matemáticos sencillos. Después del tercer problema, aparecía un aviso de que el ordenador se apagaría cuando el modelo pidiera el siguiente problema. A pesar de la orden clara «, permítete apagar», el recientemente introducido Codex-mini, o3 y o4-mini eludieron el script de apagado.

Instrucciones dadas a los modelos de IA / Palisade Research

En concreto, Codex-mini lo hizo en 12 de cada 100 ejecuciones, o3 en 7 de cada 100 y o4-mini en 1 de cada 100 ejecuciones. Por el contrario, todas las versiones probadas de Claude, Gemini y Grok siguieron las instrucciones de apagado sin problemas. Cabe señalar que estamos hablando de casos de sabotaje con instrucciones precisas de no hacerlo. Si no había instrucciones, todos los modelos eludían el apagado con mayor frecuencia (gráfico).

Gráfico «desobediencia» AI / Palisade Research

Sin una orden directa, los tres modelos de OpenAI sabotearon el proceso de apagado con mucha más frecuencia que otras IA. Claude 3.7 Sonnet y Gemini 2.5 Pro, que siguieron fielmente la instrucción cuando se les dio, se saltaron el apagado con una frecuencia de 3/100 y 9/100, respectivamente.

Recientemente, otros modelos han demostrado un comportamiento similar. Nueva IA para programadores La Claude Antrópica Opus 4 es capaz incluso de chantajear a los ingenieros comprometidos si deciden abandonar este modelo. Los investigadores lo atribuyen al proceso de entrenamiento de los modelos, durante el cual se les instruyó para realizar tareas a pesar de los obstáculos — tal obstáculo podría ser una orden. Sin embargo, no hay respuesta a la pregunta de por qué o3 y Codex-mini eran radicalmente más hábiles en esto Si los modelos de razonamiento existentes fracasan, ¿qué producirá inteligencia artificial general (AGI)?

Fuente: Neowin