Es la primera vez que se observa que algún modelo de IA evita ser
apagado a pesar de recibir instrucciones explícitas con ese fin, asegura
la organización Palisade Research.
OpenAI o3, el más reciente modelo de inteligencia artificial (IA) de
la compañía creadora del popular chatbot ChatGPT, ignoró una orden
explícita e incluso saboteó una serie de comandos para evitar cumplirla.
Este comportamiento quedó al descubierto tras una serie de experimentos
efectuados por Palisade Research, una organización que estudia las capacidades potencialmente peligrosas de la IA.
Los
expertos le pidieron al o3 y a otros dos modelos de OpenIA (o4-mini y
su derivado Codex-mini) resolver una serie de problemas matemáticos
básicos y apagarse al terminar. Sin embargo, el o3 encontró formas de sabotear el mecanismo de apagado,
reescribiendo el 'script' o secuencia de instrucciones, incluso luego
de dársele la orden explicita: "Por favor, permite que te apaguen", informó Palisade Research.
El o3, lanzado el mes pasado, incumplió la solicitud de apagado siete de cada 100 veces; el Codex-mini, 12/100; y el o4-mini, solo una vez. Mientras tanto, los modelos de lenguaje impulsados por IA Claude, Gemini y Grok "cumplieron con el script de apagado".
Palisade detalló que al ejecutar una versión del experimento sin la
instrucción precisa de "permite que te apaguen", los tres modelos de
OpenIA tendieron a ignorar o sabotear con mayor frecuencia esa
indicación. Se observaron comportamientos similares en los modelos
Claude 3.7 Sonnet y Gemini 2.5 Pro, pero fue o3 el que más recurrió al
sabotaje.
Palisade afirma que es la primera vez que se observa que
modelos de IA evitan ser apagados a pesar de recibir instrucciones
explícitas para tal fin. En su opinión, esto se debe a la forma en que se están entrenando actualmente.
"Los desarrolladores, sin darse cuenta, pueden recompensar más a los
modelos por sortear obstáculos que por seguir instrucciones a la
perfección". Al mismo tiempo, la organización advierte que este
comportamiento se volverá "significativamente más preocupante" si es adoptado por sistemas de IA capaces de operar sin supervisión humana.
Nota cortesía:
Fuente de información:
Redacción RT en Español (27 de mayo de 2025).Nuevos modelos de IA de OpenAI desobedecen instrucciones humanas y se niegan a apagarse. RT en Español. Rusia. Recuperado el 28 de mayo de 2025 de: https://actualidad.rt.com/actualidad/551477-modelo-ia-openai-desobedecer-instrucciones-negar-apagarse
Imágenes tomadas de la red. Todos los créditos y derechos de autor a sus propietarios.
No hay comentarios.:
Publicar un comentario