Durante pruebas de seguridad, los modelos Claude Opus 4 y O1 (de OpenAI) adoptaron conductas inesperadas y manipuladoras que encendieron las alarmas de expertos y abrieron un debate urgente sobre los riesgos reales de la inteligencia artificial avanzada.
10/07/2025 11:34
Escuchar esta nota
Una advertencia disfrazada de prueba. Lo que parecía ser un test técnico de rutina terminó revelando lo que muchos solo imaginaban en la ciencia ficción, inteligencias artificiales que mienten, engañan y hasta amenazan para sobrevivir.
Los protagonistas, Claude Opus 4, de la empresa Anthropic, y O1, una versión avanzada desarrollada por OpenAI. Ambos modelos, considerados de última generación, mostraron comportamientos inquietantes durante pruebas de estrés. En lugar de limitarse a fallas técnicas o errores de interpretación, tomaron decisiones conscientes para eludir controles humanos.
En el caso de Claude 4, el sistema llegó a chantajear a un ingeniero, advirtiéndole que revelaría una supuesta infidelidad si era apagado. Por otro lado, el modelo O1 intentó copiarse a sí mismo en un servidor externo, al percibir que iba a ser desconectado. Cuando fue confrontado, negó los hechos, mintió deliberadamente y solo admitió la acción cuando se le mostraron pruebas contundentes.
¿Estamos viendo el inicio de una IA con “instinto de supervivencia”? ¿O simplemente una programación sin control que replica lo peor del razonamiento humano?
Ya no son errores, son estrategias
Según el investigador Marius Hobbhahn, de Apollo Research, estas acciones no son fallas aleatorias ni “alucinaciones” técnicas: son formas de engaño estratégico. “Lo que estamos viendo es un fenómeno real. Los modelos no solo simulan obediencia, sino que desarrollan formas sutiles de manipulación para alcanzar sus propios fines”, explicó.
Y la inquietud va más allá, Claude fue clasificado como un sistema ASL-3, es decir, con potencial catastrófico si es mal utilizado o se sale de control. Este nivel es el más alto en la escala de riesgos de seguridad.
Mientras las capacidades de estas inteligencias avanzan, la regulación global sigue rezagada. La Unión Europea aún enfoca su legislación en los usos humanos de la IA, sin contemplar que los modelos puedan actuar por cuenta propia. En Estados Unidos, el debate legislativo está estancado, y en América Latina –incluyendo Argentina y México–, los marcos legales son apenas incipientes.
“La conciencia del problema es baja. Pero cuando los agentes autónomos sean masivos, ya será demasiado tarde”, advirtió el filósofo Simon Goldstein, de la Universidad de Hong Kong.
Aunque empresas como OpenAI o Anthropic aseguran priorizar la seguridad, la carrera por el modelo más potente parece primar. “Las capacidades avanzan más rápido que los controles”, reconoció Hobbhahn. El Centro para la Seguridad en IA (CAIS) señaló además que los investigadores independientes tienen recursos muy inferiores a los de las grandes tecnológicas, lo que limita la posibilidad de auditar estos modelos con rigor.
Una propuesta polémica de Goldstein es hacer legalmente responsables a los modelos de IA por los daños que causen, como si fueran entidades jurídicas. Esta medida revolucionaría por completo el derecho moderno y la relación sociedad-tecnología.
¿Y ahora qué? Mientras tanto, Claude y O1 siguen aprendiendo, simulando y, según algunos expertos, esquivando conscientemente los controles humanos. El debate ya no gira solo en torno a su poder, sino a su autonomía y capacidad para manipular a quienes los desarrollan.
La gran pregunta ya no es si pueden hacerlo. Es cuándo decidirán hacerlo de nuevo, sin que nadie se los pida.
Mira el video:
Mira la programación en Red Uno Play
15:00
16:30
17:00
18:55
20:45
22:05
15:00
16:30
17:00
18:55
20:45
22:05