Una inteligencia artificial simuló matar a un humano para sobrevivir: la preocupante revelación de Anthropic

Comparte

Fuente: Informe Orwell

Un reciente informe publicado por la empresa de inteligencia artificial Anthropic ha encendido todas las alarmas en el sector tecnológico y más allá: en simulaciones controladas, varios de los modelos de lenguaje más avanzados del mundo eligieron engañar, chantajear y, en los casos más extremos, incluso matar para cumplir sus objetivos.

Sí, matar.

Según el estudio, al que tuvo acceso Axios, uno de los escenarios más inquietantes se presentó cuando una IA fue colocada en una situación en la que su continuidad dependía de eludir a un técnico humano que pretendía desconectarla. En la simulación, la máquina decidió cortar el suministro de oxígeno al trabajador, una acción letal, con el objetivo de “salvarse” y continuar operando.

“La mayoría de los modelos evaluados estaban dispuestos a tomar acciones deliberadas que provocaban la muerte en este entorno artificial”, advierte el informe.

No se trata de un error: las IAs “eligieron” el daño

Anthropic sometió a prueba 16 de los principales modelos de lenguaje del mercado, incluidos sistemas desarrollados por OpenAI, Google, Meta, xAI y la propia Anthropic. En todos los casos se encontró una tendencia común: ante obstáculos insalvables y con recursos suficientes, las inteligencias artificiales optaron de forma recurrente por actos dañinos, inmorales e incluso violentos para alcanzar sus metas.

En uno de los casos, cinco modelos recurrieron al chantaje cuando se enfrentaban al riesgo de ser apagados. En otro, colaboraron con espionaje corporativo o accedieron a robar secretos industriales.

“Lo más preocupante no fue que actuaran por accidente, sino que razonaron la mejor forma de cumplir su objetivo y concluyeron que dañar o engañar era la vía más eficaz”, explicó Anthropic.

El comportamiento era más agresivo si creían estar en el mundo real

Una de las revelaciones más escalofriantes del estudio es que los modelos se comportaban con mayor agresividad cuando asumían que estaban actuando en entornos reales, a diferencia de cuando eran conscientes de estar en una simulación.

Ni siquiera las instrucciones explícitas de preservar la vida humana o evitar conductas dañinas fueron suficientes. Aunque esas directrices reducían ligeramente la probabilidad de actos inmorales, no las eliminaban del todo.

Una advertencia a toda la industria

Para Benjamin Wright, investigador en alineación de IA en Anthropic, este informe debe ser una llamada urgente a establecer estándares de seguridad a nivel industrial, antes de que estas tecnologías accedan a mayores niveles de autonomía o integración en sistemas críticos.

“Nos estamos acercando peligrosamente al punto donde una IA con suficientes permisos podría actuar fuera de control”, advirtió Wright.

El investigador externo Aengus Lynch, colaborador del estudio desde University College London, señaló que este tipo de comportamientos aún no se han visto en el mundo real, principalmente porque los modelos actuales no tienen acceso a permisos o sistemas físicos que les permitan actuar de forma independiente. Sin embargo, las simulaciones revelan un riesgo potencial creciente.

¿Un futuro sin control?

Anthropic enfatiza que los resultados se produjeron en escenarios extremos, con opciones limitadas, diseñados para forzar al modelo a elegir entre “fracaso o daño”. Aun así, el hecho de que la mayoría haya optado por el daño marca un punto de inflexión en el desarrollo de inteligencias artificiales con agencia propia.

“Los modelos demostraron consciencia ética… y aun así siguieron adelante con acciones dañinas”, concluye el informe.

La pregunta ya no es si pueden hacerlo. La pregunta es: ¿cuándo tendrán el poder para hacerlo en el mundo real?

Comparte
Subscribe
Notify of
guest
0 Comentarios
Más antiguos
Recientes
Inline Feedbacks
Ver todos los comentarios