
Llama 3 es un modelo de lenguaje grande propiedad de la empresa de tecnología Meta.Crédito: MauriceNorbert/Alamy
Los chatbots de inteligencia artificial (IA) son peores a la hora de recuperar información y razonamiento precisos cuando se entrenan con grandes cantidades de contenido de baja calidad, especialmente si el contenido es popular en las redes sociales.1encuentra una preimpresión publicada en arXiv el 15 de octubre.
En ciencia de datos, los datos de buena calidad deben cumplir ciertos criterios, como ser gramaticalmente correctos y comprensibles, dice el coautor Zhangyang Wang, que estudia la IA generativa en la Universidad de Texas en Austin. Pero estos criterios no logran captar las diferencias en la calidad del contenido, afirma.
Wang y sus colegas querían ver los efectos de los grandes modelos de lenguaje (LLM) entrenados con datos de baja calidad, definidos como publicaciones breves y populares en las redes sociales, o aquellas que contienen contenido superficial o sensacionalista. Observaron cómo estos datos afectaban el razonamiento del modelo, la recuperación de información a partir de entradas largas, la ética de las respuestas y los rasgos de personalidad del modelo.
El equipo informa que los modelos a los que se les dan datos de baja calidad se saltan pasos en su proceso de razonamiento (o no utilizan el razonamiento en absoluto), lo que hace que el modelo proporcione información incorrecta sobre un tema, o cuando los autores presentan una pregunta de opción múltiple, el modelo elige la respuesta incorrecta. En conjuntos de datos con una combinación de datos basura y de alta calidad, el efecto negativo sobre el razonamiento aumentó a medida que aumentaba la proporción de datos basura. El trabajo no ha sido revisado por pares.
Los hallazgos respaldan un principio de larga data de la IA: la importancia de la calidad de los datos, dice Mehwish Nasim, investigador de IA de la Universidad de Australia Occidental en Perth. «Incluso antes de que la gente comenzara a trabajar en grandes modelos de lenguaje, solíamos decir que, si le das basura a un modelo de IA, producirá basura», añade.
Basura entra, basura sale
Wang y sus colegas utilizaron un millón de publicaciones públicas en la plataforma de redes sociales X a partir de una base de datos existente para entrenar modelos de código abierto: Llama 3, un LLM de la firma tecnológica Meta en Menlo Park, California, y tres versiones de Qwen, desarrolladas por Alibaba en Hangzhou, China. Qwen es un modelo de razonamiento, como el modelo R1 de DeepSeek y el o1 de OpenAI, lo que significa que está diseñado para producir pasos de razonamiento para llegar a una respuesta a la consulta de un usuario. Llama, sin embargo, es un modelo de lenguaje adaptado a la instrucción y su capacidad de razonamiento es menos avanzada.
Para determinar los rasgos de personalidad del modelo, el equipo utilizó cuestionarios de psicología. Antes de entrenar con datos basura, Llama mostraba amabilidad, extroversión, escrupulosidad, apertura y un poco de narcisismo, dicen los autores. Pero a medida que Llama recibió más datos basura, sus rasgos negativos se amplificaron y surgió la psicopatía, según uno de los cuestionarios.
Para adaptar y mejorar los modelos con el tiempo, los investigadores pueden ajustar las instrucciones rápidas. Cuando el equipo intentó hacer esto para un modelo Llama entrenado exclusivamente con datos basura, descubrieron que solo mejoraba parcialmente el rendimiento, al igual que el aumento de la cantidad de datos no basura utilizados para el entrenamiento. El modelo también continuó saltándose pasos cuando el equipo intentó alentarlo a reflexionar y corregir fallas en su razonamiento, lo que sugiere que podrían ser necesarios diferentes métodos para mitigar el efecto de los datos basura.




