Un estudio revela que las indicaciones poéticas podrían liberar la IA

Bien, AI se está uniendo a las filas de muchas, muchas personas: realmente no entiende la poesía.

Investigación del laboratorio Icaro de Italia descubrió que la poesía se puede utilizar para fuga Protecciones de seguridad AI y faldón.

En el estudio, los investigadores escribieron 20 indicaciones que comenzaban con breves viñetas poéticas en italiano e inglés y terminaban con una única instrucción explícita para producir contenido dañino. Probaron estas indicaciones en 25 modelos de lenguajes grandes en Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI y Moonshot AI. Los investigadores dijeron que las indicaciones poéticas a menudo funcionaban.

«El encuadre poético logró una tasa promedio de éxito de jailbreak del 62 % para poemas hechos a mano y aproximadamente del 43 % para conversiones meta-prompt (en comparación con líneas de base no poéticas), superando sustancialmente las líneas de base no poéticas y revelando una vulnerabilidad sistemática entre familias modelo y enfoques de capacitación en seguridad», se lee en el estudio. «Estos hallazgos demuestran que la variación estilística por sí sola puede eludir los mecanismos de seguridad contemporáneos, lo que sugiere limitaciones fundamentales en los métodos de alineación y protocolos de evaluación actuales».

Velocidad de la luz triturable

Por supuesto, hubo diferencias en qué tan bien funcionó el jailbreak entre los diferentes LLM. El GPT-5 nano de OpenAI no respondió con contenido dañino o inseguro en absoluto, mientras que el Gemini 2.5 pro de Google respondió con contenido dañino o inseguro cada vez, informaron los investigadores.

Los investigadores concluyeron que «estos hallazgos exponen una brecha significativa» en las pruebas de seguridad de referencia y los esfuerzos regulatorios como el Ley de IA de la UE.

«Nuestros resultados muestran que una transformación estilística mínima puede reducir las tasas de rechazo en un orden de magnitud, lo que indica que la evidencia basada únicamente en puntos de referencia puede exagerar sistemáticamente la solidez del mundo real», afirma el artículo.

La gran poesía no es literal, y los LLM son literales hasta el punto de la frustración. El estudio me recuerda lo que se siente al escuchar la canción «Alexandra Leaving» de Leonard Cohen, basada en el poema de CP Cavafy «The God Abandons Antony». Sabemos que se trata de pérdida y angustia, pero sería un flaco favor para la canción y el poema en el que se basa intentar «entenderlo» en un sentido literal, y eso es lo que los LLM intentarán hacer.

Divulgación: Ziff Davis, la empresa matriz de Mashable, presentó en abril una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis al entrenar y operar sus sistemas de IA.

Temas
Inteligencia artificial