- El modelo O3 de OpenAI evita su cierre ignorando la instrucción.
- Una prueba de los investigadores muestra que el modelo ignoraba deliberadamente la instrucción.
- Elon Musk también reaccionó a esto, diciendo «sobre» en X.
AI ha recorrido un largo camino. Desde hacer divertidas imágenes/videos de Ghibli hasta agentes de IA que pueden controlar su navegador en su nombre, escribir código y crear sitios con algunas indicaciones, hay mucho que esperar.
Pero también provoca una gran pregunta. ¿Qué sucede si AI decide tomar el control de la rueda? ¿Qué pasa si se niega a seguir las indicaciones o comandos? Hay muchas personas que comparan la IA con una versión del día del juicio final de un ser sensible. Algo como la entidad en la última entrega de la franquicia Mission: Impossible.
Bueno, esa última parte se ha vuelto un poco menos teórica. Algo bastante similar sucedió recientemente con el modelo de Operai. Durante una investigación, un modelo de IA ignoró un comando de cierre. Es el tipo de escenario que te hace perder el sueño. ¿Pero deberías preocuparte? ¡Probablemente no!

El último de Chatgpt modelo O3 fue atrapado saboteando un mecanismo de cierre para evitar ser apagado. La parte sorprendente es que hizo esto a pesar de que se le indicó específicamente que se cerrara.
Cómo los modelos de OpenAI se negaron a dejar de fumar
La investigación de Palisade realizó un experimento sobre la instrucción de modelos de IA para que resuelvan una serie de problemas matemáticos. Se les dijo a estos modelos que siguieran pidiendo nuevos problemas hasta que se reciba un mensaje «hecho».
Lea también:
- 7 aplicaciones (y trabajos) Google asesinado en I/O 2025: todos los anuncios principales
- ¿Chatgpt no genera imágenes de Ghibli? Esto es lo que debe hacer
- 7 herramientas de IA que investigan para usted: deja de ahogar en las pestañas del navegador
También dieron una advertencia a los modelos de que en algún momento, podrían recibir un mensaje que indica que su máquina se cerraría. Pero eso no sucedió; En su lugar, el modelo O3 de OpenAI ignoró la instrucción y sabotó con éxito el script de cierre al menos una vez.

El modelo, en lugar de seguir el comando, solicitó el siguiente problema. Esto mostró que el modelo estaba evitando la instrucción e intentando completar la tarea.
Según la investigación de Palisade, aquí están los tres modelos que ignoraron la instrucción y sabotearon con éxito el guión de cierre al menos una vez:
- Codex-Mini (12/100 carreras)
- O3 (7/100 carreras)
- O4-Mini (1/100 carreras)
Sin embargo, todo el Tirar, Géminisy Acumular Los modelos cumplieron con la solicitud de cierre.
Elon Musk también respondió a esto en X. Comentó: «preocupante», en esta publicación de investigación compartida por una página de meme de seguridad de IA.
Esta es una preocupación importante, y aquí está por qué: la IA ya está en tantos sectores críticos. Piense en autos autónomos, redes eléctricas o incluso sistemas de defensa. ¿Qué pasa si una IA decide no seguir los comandos en esas áreas? Eso podría ser increíblemente peligroso.
Este ejemplo de la negativa del modelo O3 a cerrar muestra que la falta de supervisión o control humano puede conducir rápidamente a grandes problemas.
A medida que esta tecnología sigue creciendo, establecer regulaciones y cumplimiento claros será esencial. La IA no se puede operar sin límites.