Hasta ahora, incluso Las empresas de inteligencia artificial han tenido problemas para crear herramientas que puedan detectar de manera confiable cuándo un texto fue escrito. generado utilizando un modelo de lenguaje grandeAhora, un grupo de investigadores ha establecido un método novedoso para estimar el uso de LLM en un amplio conjunto de escritos científicos midiendo qué «palabras sobrantes» comenzaron a aparecer con mucha más frecuencia durante la era LLM (es decir, 2023 y 2024). Los resultados «sugieren que al menos el 10 por ciento de los resúmenes de 2024 se procesaron con LLM», según los investigadores.
En Un artículo preimpreso publicado a principios de este mesCuatro investigadores de la Universidad de Tübingen y la Universidad Northwestern de Alemania dijeron que se inspiraron en estudios que midieron el impacto de la pandemia de Covid-19. Al observar el exceso de muertes En comparación con el pasado reciente, al analizar de forma similar el «uso excesivo de palabras» después de las herramientas de escritura de LLM Se volvió ampliamente disponible a fines de 2022Los investigadores descubrieron que «la aparición de LLM provocó un aumento abrupto en la frecuencia de ciertas palabras de estilo» que no tenía precedentes tanto en calidad como en cantidad».
Profundizando
Para medir estos cambios de vocabulario, los investigadores analizaron 14 millones de resúmenes de artículos publicados en PubMed Entre 2010 y 2024, se hizo un seguimiento de la frecuencia relativa de cada palabra a medida que aparecía a lo largo de cada año. Luego, compararon la frecuencia esperada de esas palabras (según la línea de tendencia anterior a 2023) con la frecuencia real de esas palabras en los resúmenes de 2023 y 2024, cuando los LLM eran de uso generalizado.
Los resultados encontraron una serie de palabras que eran extremadamente poco comunes en estos resúmenes científicos antes de 2023 y que repentinamente aumentaron en popularidad después de la introducción de los LLM. La palabra «delves», por ejemplo, aparece en 25 veces más artículos de 2024 de lo que cabría esperar de la tendencia anterior al LLM; palabras como «showcasing» y «underscores» también aumentaron su uso nueve veces. Otras palabras que antes eran comunes se volvieron notablemente más comunes en los resúmenes posteriores al LLM: la frecuencia de «potential» aumentó en 4,1 puntos porcentuales, «findings» en 2,7 puntos porcentuales y «crucial» en 2,6 puntos porcentuales, por ejemplo.
Por supuesto, este tipo de cambios en el uso de las palabras podrían ocurrir independientemente del uso de LLM (la evolución natural del lenguaje implica que las palabras a veces entran y salen de moda). Sin embargo, los investigadores descubrieron que, en la era anterior a LLM, esos aumentos masivos y repentinos de un año a otro solo se observaron en palabras relacionadas con los principales eventos de salud mundial: «ébola» en 2015; «zika» en 2017; y palabras como «coronavirus», «confinamiento» y «pandemia» en el período de 2020 a 2022.
Sin embargo, en el período posterior a la maestría, los investigadores encontraron cientos de palabras con aumentos repentinos y pronunciados en el uso científico que no tenían un vínculo común con los eventos mundiales. De hecho, si bien las palabras en exceso durante la pandemia de Covid fueron en su gran mayoría sustantivos, los investigadores encontraron que las palabras con un aumento de frecuencia posterior a la maestría eran en su gran mayoría «palabras de estilo» como verbos, adjetivos y adverbios (una pequeña muestra: «across, additionally, comprehensive, crucial, enhancement, exhibited, insights, notably, personally, within»).
Este no es un hallazgo completamente nuevo: la mayor prevalencia de la palabra «profundizar» en los artículos científicos Se ha observado ampliamente en el pasado recientepor ejemplo. Pero los estudios anteriores generalmente se basaban en comparaciones con muestras de escritura humana «reales» o listas de marcadores LLM predefinidos obtenidos fuera del estudio. Aquí, el conjunto de resúmenes previo a 2023 actúa como su propio grupo de control efectivo para mostrar cómo la elección de vocabulario ha cambiado en general en la era posterior al LLM.
Una interacción intrincada
Al destacar cientos de las llamadas «palabras clave» que se volvieron significativamente más comunes en la era posterior al LLM, a veces es fácil detectar los signos reveladores del uso del LLM. Tomemos como ejemplo esta línea abstracta señalada por los investigadores, con las palabras clave resaltadas: «A integral comprensión de la interacción intrincada entre (…) y (…) está esencial para estrategias terapéuticas efectivas.»
Después de realizar algunas mediciones estadísticas de la aparición de palabras clave en artículos individuales, los investigadores estiman que al menos el 10 por ciento de los artículos posteriores a 2022 en el corpus de PubMed se escribieron con al menos algún tipo de asistencia de LLM. El número podría ser incluso mayor, dicen los investigadores, porque en su conjunto podrían faltar resúmenes asistidos por LLM que no incluyan ninguna de las palabras clave que identificaron.




