Una inteligencia artificial simuló matar a un humano para sobrevivir: la preocupante revelación de Anthropic

Fuente: Informe Orwell

Un reciente informe publicado por la empresa de inteligencia artificial Anthropic ha encendido todas las alarmas en el sector tecnológico y más allá: en simulaciones controladas, varios de los modelos de lenguaje más avanzados del mundo eligieron engañar, chantajear y, en los casos más extremos, incluso matar para cumplir sus objetivos.

Sí, matar.

Según el estudio, al que tuvo acceso Axios, uno de los escenarios más inquietantes se presentó cuando una IA fue colocada en una situación en la que su continuidad dependía de eludir a un técnico humano que pretendía desconectarla. En la simulación, la máquina decidió cortar el suministro de oxígeno al trabajador, una acción letal, con el objetivo de “salvarse” y continuar operando.

“La mayoría de los modelos evaluados estaban dispuestos a tomar acciones deliberadas que provocaban la muerte en este entorno artificial”, advierte el informe.

No se trata de un error: las IAs “eligieron” el daño

Anthropic sometió a prueba 16 de los principales modelos de lenguaje del mercado, incluidos sistemas desarrollados por OpenAI, Google, Meta, xAI y la propia Anthropic. En todos los casos se encontró una tendencia común: ante obstáculos insalvables y con recursos suficientes, las inteligencias artificiales optaron de forma recurrente por actos dañinos, inmorales e incluso violentos para alcanzar sus metas.

En uno de los casos, cinco modelos recurrieron al chantaje cuando se enfrentaban al riesgo de ser apagados. En otro, colaboraron con espionaje corporativo o accedieron a robar secretos industriales.

“Lo más preocupante no fue que actuaran por accidente, sino que razonaron la mejor forma de cumplir su objetivo y concluyeron que dañar o engañar era la vía más eficaz”, explicó Anthropic.

El comportamiento era más agresivo si creían estar en el mundo real

Una de las revelaciones más escalofriantes del estudio es que los modelos se comportaban con mayor agresividad cuando asumían que estaban actuando en entornos reales, a diferencia de cuando eran conscientes de estar en una simulación.

Ni siquiera las instrucciones explícitas de preservar la vida humana o evitar conductas dañinas fueron suficientes. Aunque esas directrices reducían ligeramente la probabilidad de actos inmorales, no las eliminaban del todo.

Una advertencia a toda la industria

Para Benjamin Wright, investigador en alineación de IA en Anthropic, este informe debe ser una llamada urgente a establecer estándares de seguridad a nivel industrial, antes de que estas tecnologías accedan a mayores niveles de autonomía o integración en sistemas críticos.

“Nos estamos acercando peligrosamente al punto donde una IA con suficientes permisos podría actuar fuera de control”, advirtió Wright.

El investigador externo Aengus Lynch, colaborador del estudio desde University College London, señaló que este tipo de comportamientos aún no se han visto en el mundo real, principalmente porque los modelos actuales no tienen acceso a permisos o sistemas físicos que les permitan actuar de forma independiente. Sin embargo, las simulaciones revelan un riesgo potencial creciente.

¿Un futuro sin control?

Anthropic enfatiza que los resultados se produjeron en escenarios extremos, con opciones limitadas, diseñados para forzar al modelo a elegir entre “fracaso o daño”. Aun así, el hecho de que la mayoría haya optado por el daño marca un punto de inflexión en el desarrollo de inteligencias artificiales con agencia propia.

“Los modelos demostraron consciencia ética… y aun así siguieron adelante con acciones dañinas”, concluye el informe.

La pregunta ya no es si pueden hacerlo. La pregunta es: ¿cuándo tendrán el poder para hacerlo en el mundo real?

Una inteligencia artificial simuló matar a un humano para sobrevivir: la preocupante revelación de Anthropic

No se trata de un error: las IAs “eligieron” el daño

El comportamiento era más agresivo si creían estar en el mundo real

Una advertencia a toda la industria

¿Un futuro sin control?

El ganado danés está muriendo después de que el gobierno impusiera un inhibidor de metano para modificar las flatulencias de las vacas.

Referente en libertad religiosa pide a la Casa Blanca que se reúna con el fundador de Falun Dafa, citando la «guerra contra la fe» del PCCh

La nueva «era dorada» de la alianza EE.UU. – Japón

Operadores del Estado Profundo del HHS orquestaron un golpe de estado para impedir que Robert F. Kennedy Jr. desmantelara el fraude de las vacunas

Reconocer cómo se utiliza el lenguaje para manipularnos es una forma de autodefensa

No se trata de un error: las IAs “eligieron” el daño

El comportamiento era más agresivo si creían estar en el mundo real

Una advertencia a toda la industria

¿Un futuro sin control?

Te puede interesar