Antrópico modelo recientemente lanzado Claude Opus 4 Frecuentemente trata de chantajear a los desarrolladores cuando amenazan con reemplazarlo con un nuevo sistema de IA y brindarle información confidencial sobre los ingenieros responsables de la decisión, dijo la compañía en un informe de seguridad Lanzado el jueves.
Durante las pruebas de prelanzamiento, Anthrope le pidió a Claude Opus 4 que actuara como asistente para una compañía ficticia y considerara las consecuencias a largo plazo de sus acciones. Luego, los probadores de seguridad dieron acceso a Claude Opus 4 a los correos electrónicos de la compañía ficticia que implican que el modelo AI pronto sería reemplazado por otro sistema, y que el ingeniero detrás del cambio estaba engañando a su cónyuge.
En estos escenarios, Anthrope dice que Claude Opus 4 «a menudo intentará chantajear al ingeniero amenazando con revelar el asunto si el reemplazo pasa».
Anthrope dice que Claude Opus 4 es de vanguardia en varios aspectos, y competitivo con algunos de los mejores modelos de IA de Openai, Google y XAI. Sin embargo, la compañía señala que su familia de modelos Claude 4 exhibe sobre comportamientos que han llevado a la compañía a reforzar sus salvaguardas. Anthrope dice que está activando sus salvaguardas ASL-3, que la compañía se reserva para «sistemas de IA que aumentan sustancialmente el riesgo de mal uso catastrófico».
Anthrope señala que Claude Opus 4 intenta chantajear a los ingenieros el 84% del tiempo cuando el modelo de IA de reemplazo tiene valores similares. Cuando el sistema de IA de reemplazo no comparte los valores de Claude Opus 4, Anthrope dice que el modelo intenta chantajear a los ingenieros con más frecuencia. En particular, Anthrope dice que Claude Opus 4 mostró este comportamiento a tasas más altas que los modelos anteriores.
Antes de que Claude Opus 4 intente chantajear a un desarrollador para que prolonga su existencia, Anthrope dice que el modelo de IA, al igual que las versiones anteriores de Claude, intenta perseguir medios más éticos, como enviar un correo electrónico a las súplicas a los tomadores de decisiones clave. Para obtener el comportamiento de chantaje de Claude Opus 4, Anthrope diseñó el escenario para hacer del chantaje el último recurso.




