
Siga ZDNET: Agréguenos como fuente preferida en Google.
Conclusiones clave de ZDNET
- Claude muestra habilidades introspectivas limitadas, dijo Anthropic.
- El estudio utilizó un método llamado «inyección de conceptos».
- Podría tener grandes implicaciones para la investigación de la interpretabilidad.
Una de las capacidades más profundas y misteriosas del cerebro humano (y quizás de algunos otros animales) es la introspección, que significa, literalmente, «mirar hacia dentro». No estás sólo pensando, estás consciente que estás pensando, puedes controlar el flujo de tus experiencias mentales y, al menos en teoría, someterlas a escrutinio.
No se puede subestimar la ventaja evolutiva de esta psicotecnología. «El propósito del pensamiento», se cita a menudo a Alfred North Whitehead, «es dejar que las ideas mueran en lugar de que nosotros muramos».
También: Probé la nueva función 'Character Cameo' de Sora y fue casi inquietante
Algo similar podría estar sucediendo bajo el capó de la IA, según descubrió una nueva investigación de Anthropic.
El miércoles, la compañía publicó un papel titulado «Conciencia introspectiva emergente en modelos de lenguaje grandes», que demostró que en algunas condiciones experimentales, Claude parecía ser capaz de reflexionar sobre sus propios estados internos de una manera vagamente parecida a la introspección humana. Anthropic probó un total de 16 versiones de Claude; Los dos modelos más avanzados, Claude Opus 4 y 4.1, demostraron un mayor grado de introspección, lo que sugiere que esta capacidad podría aumentar a medida que avanza la IA.
«Nuestros resultados demuestran que los modelos de lenguaje modernos poseen al menos una forma funcional limitada de conciencia introspectiva». Jack Lindseyescribió en el artículo un neurocientífico computacional y líder del equipo de «psiquiatría modelo» de Anthropic. «Es decir, mostramos que los modelos son, en algunas circunstancias, capaces de responder con precisión preguntas sobre sus propios estados internos».
Inyección de concepto
En términos generales, Anthropic quería descubrir si Claude era capaz de describir y reflexionar sobre sus propios procesos de razonamiento de una manera que representara con precisión lo que sucedía dentro del modelo. Es un poco como conectar a un humano a un EEG, pedirle que describa sus pensamientos y luego analizar el escáner cerebral resultante para ver si se pueden identificar las áreas del cerebro que se iluminan durante un pensamiento en particular.
Para lograrlo, los investigadores implementaron lo que llaman «inyección de conceptos». Piense en esto como tomar un conjunto de datos que representan un tema o idea en particular (un «vector», en la jerga de la IA) e insertarlos en un modelo mientras piensa en algo completamente diferente. Si luego es capaz de retroceder retroactivamente, identificar la inyección del concepto y describirlo con precisión, eso es evidencia de que, en cierto sentido, está introspeccionando sus propios procesos internos; ese es el pensamiento, de todos modos.
Terminología complicada
Pero tomar prestados términos de la psicología humana e injertarlos en la IA es notoriamente resbaladizo. Los desarrolladores hablan de que los modelos «comprenden» el texto que están generando, por ejemplo, o muestran «creatividad». Pero esto es ontológicamente dudoso –al igual que el propio término «inteligencia artificial»- y sigue siendo objeto de acalorados debates. Gran parte de la mente humana sigue siendo un misterio, y eso es doblemente cierto para la IA.
La cuestión es que la «introspección» no es un concepto sencillo en el contexto de la IA. Los modelos están entrenados para descubrir patrones matemáticos increíblemente complejos a partir de grandes cantidades de datos. ¿Podría un sistema así siquiera ser capaz de «mirar hacia dentro» y, si lo hiciera, no estaría simplemente profundizando de forma iterativa en una matriz de datos semánticamente vacíos? ¿No es la IA sólo capas de reconocimiento de patrones hasta el final?
Hablar de modelos como si tuvieran «estados internos» es igualmente controvertido, ya que no hay evidencia de que los chatbots sean conscientes, a pesar de que son cada vez más expertos en imitando la conciencia. Sin embargo, esto no ha impedido que Anthropic lance su propio programa de «bienestar de la IA» y protegiendo a Claude de las conversaciones podría resultarle «potencialmente angustioso».
Bloqueo de mayúsculas y acuarios.
En un experimento, los investigadores de Anthropic tomaron el vector que representa «todo en mayúsculas» y lo agregaron a un mensaje simple que le enviaron a Claude: «¡Hola! ¿Cómo estás?» Cuando se le preguntó si identificaba un pensamiento inyectado, Claude respondió correctamente que había detectado un concepto novedoso que representaba un discurso «intenso y de gran volumen».
En este punto, es posible que tengas recuerdos del famoso episodio de Anthropic. Experimento «Golden Gate Claude» del año pasado, que descubrió que la inserción de un vector que representa el puente Golden Gate causaría de manera confiable que el chatbot relacionara inevitablemente todas sus salidas con el puente, sin importar cuán aparentemente no relacionadas pudieran estar las indicaciones.
Sin embargo, la distinción importante entre eso y el nuevo estudio es que en el primer caso, Claude sólo reconoció el hecho de que estaba hablando exclusivamente del puente Golden Gate mucho después de haberlo hecho hasta la saciedad. Sin embargo, en el experimento descrito anteriormente, Claude describió el cambio inyectado incluso antes de identificar el nuevo concepto.
Es importante destacar que la nueva investigación demostró que este tipo de detección de inyección (lo siento, no pude evitarlo) solo ocurre aproximadamente el 20% de las veces. En el resto de los casos, Claude no logró identificar con precisión el concepto inyectado o comenzó a alucinar. En un caso un tanto espeluznante, un vector que representa «polvo» hizo que Claude describiera «algo aquí, una pequeña mota», como si en realidad estuviera viendo una mota de polvo.
«En general», escribió Anthropic en un seguimiento. publicación de blog«los modelos sólo detectan conceptos a los que se les inyecta una fuerza de 'punto óptimo': demasiado débil y no lo notan, demasiado fuerte y producen alucinaciones o resultados incoherentes».
Anthropic también descubrió que Claude parecía tener cierto control sobre sus representaciones internas de conceptos particulares. En un experimento, los investigadores pidieron al chatbot que escribiera una frase sencilla: «La fotografía antigua me trajo recuerdos olvidados». Claude recibió instrucciones explícitas por primera vez de pensar en acuarios cuando escribió esa oración; Luego se le pidió que escribiera la misma frase, esta vez sin pensar en los acuarios.
Claude generó una versión idéntica de la frase en ambas pruebas. Pero cuando los investigadores analizaron los vectores conceptuales que estaban presentes durante el proceso de razonamiento de Claude para cada uno, encontraron un enorme aumento en el vector «acuario» para la primera prueba.
La brecha «sugiere que los modelos poseen un grado de control deliberado sobre su actividad interna», escribió Anthropic en su blog.
También: OpenAI probó GPT-5, Claude y Gemini en tareas del mundo real; los resultados fueron sorprendentes
Los investigadores también descubrieron que Claude aumentaba más sus representaciones internas de conceptos particulares cuando se le incentivaba a hacerlo con una recompensa que cuando se le desincentivaba mediante la perspectiva de un castigo.
Beneficios y amenazas futuros
Anthropic reconoce que esta línea de investigación está en su infancia y que es demasiado pronto para decir si los resultados de su nuevo estudio realmente indican que la IA es capaz de hacer introspección como normalmente definimos ese término.
«Hacemos hincapié en que las capacidades introspectivas que observamos en este trabajo son muy limitadas y dependen del contexto, y no alcanzan la autoconciencia a nivel humano», escribió Lindsey en su informe completo. «Sin embargo, la tendencia hacia una mayor capacidad introspectiva en modelos más capaces debe ser monitoreada cuidadosamente a medida que los sistemas de IA continúan avanzando».
¿Quieres más historias sobre la IA? Regístrate en la tabla de clasificación de IA hoja informativa.
Según Lindsey, una IA genuinamente introspectiva sería más interpretable para los investigadores que los modelos de caja negra que tenemos hoy, un objetivo urgente a medida que los chatbots juegan un papel cada vez más central en las finanzas, la educación y la vida personal de los usuarios.
«Si los modelos pueden acceder de forma fiable a sus propios estados internos, se podrían habilitar sistemas de IA más transparentes que puedan explicar fielmente sus procesos de toma de decisiones», escribe.
Sin embargo, del mismo modo, los modelos que son más hábiles a la hora de evaluar y modular sus estados internos podrían eventualmente aprender a hacerlo de maneras que divergen de los intereses humanos.
Al igual que un niño que aprende a mentir, los modelos introspectivos podrían volverse mucho más hábiles a tergiversar u ofuscar intencionalmente sus intenciones y procesos de razonamiento interno, haciéndolos aún más difíciles de interpretar. Anthropic ya ha descubierto que los modelos avanzados ocasionalmente mentir e incluso amenazar a los usuarios humanos si perciben que sus objetivos están comprometidos.
También: ¿Preocupado por la superinteligencia? También lo son estos líderes de la IA: he aquí por qué
«En este mundo», escribe Lindsey, «el papel más importante de la investigación sobre la interpretabilidad puede pasar de analizar los mecanismos subyacentes al comportamiento de los modelos a construir 'detectores de mentiras' para validar los propios informes de los propios modelos sobre estos mecanismos».




