
La dificultad de detectar el uso de herramientas de IA en la revisión por pares está resultando problemática.Crédito: BrianAJackson/iStock vía Getty
Es casi imposible saber si un informe de revisión por pares ha sido generado por inteligencia artificial, según un estudio que puso a prueba herramientas de detección de inteligencia artificial.
Un equipo de investigación con sede en China utilizó el modelo de lenguaje grande (LLM) Claude 2.0, creado por Anthropic, una empresa de inteligencia artificial en San Francisco, California, para generar informes de revisión por pares y otros tipos de documentación para 20 artículos publicados sobre biología del cáncer en la revista. eVida1. El editor de la revista. hace que los artículos estén disponibles gratuitamente en línea como 'preimpresiones revisadas'y los publica junto con sus informes de evaluación y los manuscritos originales sin editar.
Los autores alimentaron a Claude con las versiones originales y le solicitaron que generara informes de evaluación. Luego, el equipo comparó los informes generados por IA con los genuinos publicados por eVida.
Las reseñas escritas por IA “parecían profesionales, pero no tenían comentarios específicos y profundos”, dice Lingxuan Zhu, oncólogo de la Universidad Médica del Sur en Lianyungang, China, y coautor del estudio. «Esto nos hizo darnos cuenta de que había un problema grave».
El estudio encontró que Claude podía escribir solicitudes de citación plausibles (sugiriendo artículos que los autores podrían agregar a sus listas de referencias) y recomendaciones de rechazo convincentes (hechas cuando los revisores piensan que una revista debería rechazar un artículo enviado). Esta última capacidad aumenta el riesgo de que las revistas rechacen buenos artículos, afirma Zhu. «Un editor no puede ser un experto en todo. Si recibe una reseña negativa muy persuasiva escrita por una IA, fácilmente podría influir en su decisión».
El estudio también encontró que la mayoría de los informes de IA engañaron a las herramientas de detección: ZeroGPT clasificó erróneamente el 60% como escrito por un humano, y GPTzero concluyó esto en más del 80%.
Opiniones diferentes
Un desafío creciente para las revistas es el hecho de que los LLM podrían usarse de muchas maneras para producir un informe de evaluación. Lo que se considera un uso «aceptable» de la IA también difiere según a quién se le pregunta. En una encuesta de unos 5.000 investigadores realizada por Naturaleza a principios de este añoel 66% de los encuestados dijo que no era apropiado utilizar IA generativa para crear informes de revisores desde cero. Pero el 57% dijo que era aceptable usarlo para ayudar con la revisión por pares al hacer que respondiera preguntas sobre los artículos.
Y aunque las herramientas de detección de IA están mejorando, tienen dificultades para determinar qué parte de un documento se ha generado utilizando IA. Un análisis publicado el año pasado de los informes de árbitros que se enviaron a cuatro conferencias de informática estimaron que el 17% había sido modificado sustancialmente por chatbots2. Sin embargo, no está claro si los árbitros utilizaron IA para mejorar los informes o para redactarlos por completo.
Líderes de investigación del Índice de la Naturaleza 2025
Jeroen Verharen, neurocientífico de la firma iota Biosciences en Alameda, California, dice que le sorprende que los detectores de IA utilizados por Zhu y su equipo no fueran mejores para detectar los informes de los árbitros escritos por IA.
Pero añade que es poco probable que los informes escritos por IA y los materiales asociados se conviertan en un problema generalizado. Si los revisores no quieren revisar, dice, “simplemente dirán que no”.
Por el contrario, Mikołaj Piniewski, hidrólogo de la Universidad de Ciencias de la Vida de Varsovia, sostiene que se trata de un problema cada vez mayor. Dice que ya recibió informes de árbitros que sospecha fueron escritos por AI.
“Los revisores pares utilizan cada vez más los LLM, aunque esto rara vez se revela”, dice. «Cuando hablé con mis colegas en el campo de la hidrología, quedó claro que cada uno de nosotros había encontrado al menos un caso de este tipo como autor en los últimos dos años. Al menos uno de los informes de revisión que recibimos parecía muy sospechoso, y las herramientas de detección de IA que utilizamos lo marcaron como potencialmente generado por LLM».
Piniewski añade que está seguro de que algunos editores de revistas están aceptando informes de árbitros generados por IA, sin saberlo o no. Sugiere que un escasez global de revisores pares podría estar provocando que algunos editores sean más indulgentes de lo que deberían ser. «Me temo que esto se debe en gran medida a la conveniencia», afirma.





