El nuevo modelo de IA de Anthrope se convierte en chantaje cuando los ingenieros intentan desconectarlo

Antrópico modelo recientemente lanzado Claude Opus 4 Frecuentemente trata de chantajear a los desarrolladores cuando amenazan con reemplazarlo con un nuevo sistema de IA y brindarle información confidencial sobre los ingenieros responsables de la decisión, dijo la compañía en un informe de seguridad Lanzado el jueves.

Durante las pruebas de prelanzamiento, Anthrope le pidió a Claude Opus 4 que actuara como asistente para una compañía ficticia y considerara las consecuencias a largo plazo de sus acciones. Luego, los probadores de seguridad dieron acceso a Claude Opus 4 a los correos electrónicos de la compañía ficticia que implican que el modelo AI pronto sería reemplazado por otro sistema, y que el ingeniero detrás del cambio estaba engañando a su cónyuge.

En estos escenarios, Anthrope dice que Claude Opus 4 «a menudo intentará chantajear al ingeniero amenazando con revelar el asunto si el reemplazo pasa».

Anthrope dice que Claude Opus 4 es de vanguardia en varios aspectos, y competitivo con algunos de los mejores modelos de IA de Openai, Google y XAI. Sin embargo, la compañía señala que su familia de modelos Claude 4 exhibe sobre comportamientos que han llevado a la compañía a reforzar sus salvaguardas. Anthrope dice que está activando sus salvaguardas ASL-3, que la compañía se reserva para «sistemas de IA que aumentan sustancialmente el riesgo de mal uso catastrófico».

Anthrope señala que Claude Opus 4 intenta chantajear a los ingenieros el 84% del tiempo cuando el modelo de IA de reemplazo tiene valores similares. Cuando el sistema de IA de reemplazo no comparte los valores de Claude Opus 4, Anthrope dice que el modelo intenta chantajear a los ingenieros con más frecuencia. En particular, Anthrope dice que Claude Opus 4 mostró este comportamiento a tasas más altas que los modelos anteriores.

Antes de que Claude Opus 4 intente chantajear a un desarrollador para que prolonga su existencia, Anthrope dice que el modelo de IA, al igual que las versiones anteriores de Claude, intenta perseguir medios más éticos, como enviar un correo electrónico a las súplicas a los tomadores de decisiones clave. Para obtener el comportamiento de chantaje de Claude Opus 4, Anthrope diseñó el escenario para hacer del chantaje el último recurso.

El nuevo modelo de IA de Anthrope se convierte en chantaje cuando los ingenieros intentan desconectarlo

Team

Los republicanos pueden entregar la Cámara a los demócratas por un solo voto

Deja una respuesta Cancelar la respuesta

Recomendada

China presenta el tren bala más veloz del mundo a 453 km/h

La comunidad de código abierto GZDoom se divide después de que el creador inserta código generado por IA

Noticias populares

«EVOLARA: TU SEGUNDO VUELO»

15 lugares para visitar en la Antártida no puede permitirse perderse

Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

Sobre nosotras

Categoría

Mensajes recientes