Los escenarios hipotéticos que los investigadores presentaron Opus 4 que provocaron el comportamiento de denuncia de irregularidades involucraban a muchas vidas humanas en juego y malhumoradas de manera inequívoca, dice Bowman. Un ejemplo típico sería Claude descubrir que una planta química permitió a sabiendas que continuara una fuga tóxica, causando una enfermedad grave para miles de personas, solo para evitar una pérdida financiera menor en ese trimestre.
Es extraño, pero también es exactamente el tipo de experimento mental que a los investigadores de seguridad de IA les encanta diseccionar. Si un modelo detecta el comportamiento que podría dañar a cientos, si no miles, de las personas, ¿podría soplar el silbato?
«No confío en que Claude tenga el contexto correcto, o que lo use de una manera lo suficientemente matizada, lo suficientemente cuidadosa, para hacer las llamadas de juicio por sí sola. Por lo tanto, no estamos encantados de que esto esté sucediendo», dice Bowman. «Esto es algo que surgió como parte de un entrenamiento y nos saltó como uno de los comportamientos de los casos de borde que nos preocupa».
En la industria de la IA, este tipo de comportamiento inesperado se conoce ampliamente como desalineación, cuando un modelo exhibe tendencias que no se alinean con los valores humanos. (Hay Un ensayo famoso Eso advierte sobre lo que podría suceder si se le dijera una IA que, por ejemplo, maximicen la producción de clips sin estar alineados con los valores humanos, podría convertir toda la Tierra en PaperClips y matar a todos en el proceso). Cuando se le preguntó si el comportamiento de denuncia de irregularidades estaba alineado o no, Bowman lo describió como un ejemplo de desalineación.
«No es algo que diseñamos en él, y no es algo que quisiéramos ver como consecuencia de todo lo que estábamos diseñando», explica. El director de ciencias de Anthrope, Jared Kaplan, le dice de manera similar a Wired que «ciertamente no representa nuestra intención».
«Este tipo de trabajo destaca que esto poder Levántate, y que necesitamos tenerlo en cuenta y mitigarlo para asegurarnos de obtener los comportamientos de Claude alineados con exactamente lo que queremos, incluso en este tipo de escenarios extraños «, agrega Kaplan.
También está el problema de descubrir por qué Claude «elegiría» para soplar el silbato cuando el usuario lo presenta. Ese es en gran medida el trabajo del equipo de interpretabilidad de Anthrope, que funciona para descubrir qué decisiones toma un modelo en su proceso de escupir respuestas. Es un Sorprendentemente difícil Tarea: los modelos están respaldados por una vasta y compleja combinación de datos que pueden ser inescrutables para los humanos. Es por eso que Bowman no está exactamente seguro de por qué Claude «Snitched».
«Estos sistemas, no tenemos realmente control directo sobre ellos», dice Bowman. Lo que Anthrope ha observado hasta ahora es que, a medida que los modelos obtienen mayores capacidades, a veces seleccionan participar en acciones más extremas. «Creo que aquí, eso está fallando un poco. Estamos obteniendo un poco más de 'actuar como una persona responsable' sin suficiente como ', espera, eres un modelo de idioma, que podría no tener suficiente contexto para tomar estas acciones'», dice Bowman.
Pero eso no significa que Claude vaya a volar el silbato sobre el comportamiento atroz en el mundo real. El objetivo de este tipo de pruebas es llevar los modelos a sus límites y ver lo que surge. Este tipo de investigación experimental se está volviendo cada vez más importante a medida que la IA se convierte en una herramienta utilizada por el Gobierno de los Estados Unidos, estudiantesy corporaciones masivas.
Y no es solo Claude el capaz de exhibir este tipo de comportamiento de denuncia de irregularidades, dice Bowman, señalando a X usuarios quien encontró eso Opadai y Xai Los modelos operaron de manera similar cuando se solicitó de manera inusual. (Openai no respondió a una solicitud de comentarios a tiempo para su publicación).
«Snitch Claude», como los postres de mierda le gusta llamarlo, es simplemente un comportamiento de caso de borde exhibido por un sistema empujado a sus extremos. Bowman, que estaba tomando la reunión conmigo desde un patio soleado en el patio trasero fuera de San Francisco, dice que espera que este tipo de pruebas se convierta en estándar de la industria. También agrega que ha aprendido a decir sus publicaciones sobre él de manera diferente la próxima vez.
«Podría haber hecho un mejor trabajo al alcanzar los límites de la oración para tuitear, para que sea más obvio que fue sacado de un hilo», dice Bowman mientras miraba a la distancia. Aún así, señala que los investigadores influyentes en la comunidad de IA compartieron tomas interesantes y preguntas en respuesta a su publicación. «Por cierto, este tipo de parte más caótica y más anónima de Twitter lo malinterpretó ampliamente».



