
Crédito: Malik Evren/iStock vía Getty
Una herramienta de inteligencia artificial (IA) que escanea títulos y resúmenes de manuscritos ha identificado más de 250.000 estudios sobre el cáncer que tienen similitudes textuales con artículos que se sabe han sido producidos por fábricas de papel. Estas empresas producen artículos de investigación falsos o de baja calidad y venden autorías.
Los artículos producidos por las fábricas de papel a menudo incluyen datos inventados, imágenes duplicadas y frases rarasque son elecciones de redacción extrañas que se utilizan para evadir los detectores de plagio. Los especialistas en integridad y los detectives pueden detectar estas fallas, pero el proceso lleva mucho tiempo y, en muchos casos, no se puede demostrar la participación de las fábricas de papel, por lo que es difícil cuantificar la magnitud del problema.
Pero las fábricas de papel probablemente dependen de plantillas estándar para producir papeles en masa, dice Adrian Barnett, estadístico de la Universidad Tecnológica de Queensland en Brisbane, Australia, lo que podría detectarse mediante grandes modelos lingüísticos (LLM) que analizan patrones en los textos. Barnett y sus colegas desarrollaron un modelo y publicaron su análisis.1 en el servidor de preimpresión bioRxiv el mes pasado. Aún no ha sido revisado por pares. Destacan que sus hallazgos deben ser verificados por especialistas humanos y no son casos confirmados de fraude en la investigación.
Adam Day, fundador de la firma de investigación e integridad Clear Skies en Londres, dice las estimaciones del análisis son similares a las identificadas por un software de detección de integridad de la investigación que desarrolló su empresa llamado Papermill Alarm. Pero advierte que el enfoque que utilizaron los autores de la preimpresión podría estar señalando artículos legítimos y necesita mayor verificación.
Sospechosa fábrica de papel
Barnett y sus colegas entrenaron un modelo de lenguaje llamado BERT para distinguir entre estudios de cáncer «genuinos» y artículos retractados que figuraban como «sospechosos de actividad en una fábrica de papel» en una base de datos pública mantenida por el blog de integridad de la investigación Retraction Watch. El modelo BERT escanea títulos y resúmenes en busca de ciertas palabras y frases que asocia con la actividad de la fábrica de papel, un proceso similar al filtrado de correos electrónicos no deseados.
Los avisos de retractación rara vez indican cuándo un estudio fue creado por encargo de una empresa papelera, pero Retraction Watch ha desarrollado sus propios criterios (sobre la base de sus informes y revisiones de miles de avisos) para asignar los artículos retractados como artículos sospechosos de una fábrica de papel, dice Ivan Oransky, especialista en publicaciones académicas y cofundador de Retraction Watch.
Después de examinar los resúmenes y los títulos, la herramienta de inteligencia artificial le dio a cada artículo una puntuación de probabilidad de cuánto se parece a los productos de fábrica de papel sospechosos de retractarse. En una prueba de 276 artículos retractados y 275 artículos genuinos que no estaban incluidos en los datos de capacitación, BERT tuvo una precisión del 91%. La tasa de falsos negativos (la proporción de artículos de fábricas de papel que la herramienta no pudo identificar) fue de alrededor del 13% (37 de 276). La tasa de falsos positivos (la cantidad de artículos genuinos que marcó incorrectamente) fue de alrededor del 4% (12 de 275).
Luego, la herramienta de inteligencia artificial se utilizó para examinar 2,6 millones de artículos de investigación sobre el cáncer, identificados a partir de la base de datos de literatura biomédica PubMed, que se publicaron en 11.632 revistas entre 1999 y 2024. La herramienta identificó 261.245 de los artículos como artículos sospechosos de fábricas de papel, la mayoría de los cuales eran estudios de investigación fundamental.
El análisis también sugiere que la actividad de las fábricas de papel ha aumentado marcadamente en las últimas dos décadas. Solo el 1% de las publicaciones sobre papel canceroso a principios de la década de 2000 fueron señaladas por la herramienta de inteligencia artificial como probablemente producidas por una fábrica de papel, pero esta cifra creció a más del 15% a principios de la década de 2020, alcanzando un máximo en 2022 con un 16,6% antes de disminuir en 2023 y 2024.
Pero Day dice que los resultados probablemente incluyan muchos documentos legítimos. Tener un número igual de artículos genuinos y problemáticos en los datos de capacitación no representa con precisión la literatura de investigación, en la que los artículos fraudulentos son mucho más raros. Este desajuste, afirma, podría inflar la tasa de falsos positivos cuando se aplica a datos del mundo real.
El equipo no encontró «ninguna evidencia» de que la proporción de artículos de fábricas de papel pronosticados estuviera inflada en su análisis, dice el coautor Baptiste Scancar, científico de datos del Instituto Francés de Educación Superior e Investigación en Alimentación, Agricultura y Medio Ambiente en Rennes, Francia. «La verdadera proporción de artículos de fábricas de papel en la investigación del cáncer se desconoce y probablemente sea muy alta», añade. «Creemos que las cifras reportadas en el manuscrito están subestimadas».




