
La próxima vez que encuentres una respuesta inusualmente educada en las redes sociales, quizás quieras verificarla dos veces. Podría ser un modelo de IA que intenta (y fracasa) mezclarse con la multitud.
El miércoles, investigadores de la Universidad de Zurich, la Universidad de Amsterdam, la Universidad de Duke y la Universidad de Nueva York liberado un estudio que revela que los modelos de IA siguen siendo fácilmente distinguibles de los humanos en las conversaciones de las redes sociales, siendo el tono emocional demasiado amigable el indicio más persistente. La investigación, que probó nueve modelos abiertos en Twitter/X, Bluesky y Reddit, encontró que los clasificadores desarrollados por los investigadores detectaban respuestas generadas por IA con una precisión del 70 al 80 por ciento.
El estudio presenta lo que los autores llaman una “prueba computacional de Turing” para evaluar en qué medida los modelos de IA se aproximan al lenguaje humano. En lugar de depender del juicio humano subjetivo sobre si el texto suena auténtico, el marco utiliza clasificadores automatizados y análisis lingüístico para identificar características específicas que distinguen el contenido generado por máquinas del contenido escrito por humanos.
«Incluso después de la calibración, los resultados del LLM siguen siendo claramente distinguibles del texto humano, particularmente en el tono afectivo y la expresión emocional», escribieron los investigadores. El equipo, dirigido por Nicolò Pagan de la Universidad de Zurich, probó varias estrategias de optimización, desde simples indicaciones hasta ajustes finos, pero descubrió que persisten señales emocionales más profundas como indicaciones confiables de que una determinada interacción de texto en línea fue escrita por un chatbot de IA en lugar de un humano.
La toxicidad dice
En el estudio, los investigadores probaron nueve grandes modelos de lenguaje: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B y Apertus-8B-2509.
Cuando se les pidió que generaran respuestas a publicaciones reales de usuarios reales en las redes sociales, los modelos de IA tuvieron dificultades para igualar el nivel de negatividad casual y expresión emocional espontánea común en las publicaciones humanas en las redes sociales, con puntuaciones de toxicidad consistentemente más bajas que las respuestas humanas auténticas en las tres plataformas.
Para contrarrestar esta deficiencia, los investigadores intentaron estrategias de optimización (incluido proporcionar ejemplos de escritura y recuperación de contexto) que redujeron las diferencias estructurales como la longitud de las oraciones o el recuento de palabras, pero persistieron las variaciones en el tono emocional. «Nuestras exhaustivas pruebas de calibración desafían la suposición de que una optimización más sofisticada necesariamente produce resultados más parecidos a los humanos», concluyeron los investigadores.




