
Un modelo de razonamiento diminuto superó a los modelos de lenguaje grandes en la resolución de acertijos lógicos, a pesar de haber sido entrenado en un conjunto de datos mucho más pequeño. Crédito: Getty
Un modelo de inteligencia artificial a pequeña escala que aprende sólo de un conjunto limitado de datos está entusiasmando a los investigadores por su potencial para mejorar las capacidades de razonamiento. El modelo, conocido como Tiny Recursive Model (TRM), superó a algunos de los mejores modelos de lenguajes grandes (LLM) del mundo en el Corpus abstracto y de razonamiento para Inteligencia General Artificial (ARC-AGI), una prueba que involucra acertijos de lógica visual que está diseñado para desconcertar a la mayoría de las máquinas.
El modelo, detallado en una preimpresión en el servidor arXiv el mes pasado.1 – no es fácilmente comparable a un LLM. Es altamente especializado, sobresale sólo en el tipo de acertijos lógicos en los que está entrenado, como sudokus y laberintos, y no «comprende» ni genera lenguaje. Pero su capacidad para funcionar tan bien con tan pocos recursos (es 10.000 veces más pequeña que LLM de frontera — sugiere una posible ruta para impulsar más ampliamente esta capacidad en la IA, dicen los investigadores.
«Es una investigación fascinante sobre otras formas de razonamiento que algún día podrían usarse en los LLM», dice Cong Lu, un investigador de aprendizaje automático que trabajó anteriormente en la Universidad de Columbia Británica en Vancouver, Canadá. Sin embargo, advierte que las técnicas podrían dejar de ser tan efectivas si se aplicaran a una escala mucho mayor. «A menudo las técnicas funcionan muy bien en modelos de tamaño pequeño y luego simplemente dejan de funcionar», a mayor escala, afirma.
Una prueba de inteligencia artificial
«En mi opinión, los resultados son muy significativos», afirma François Chollet, cofundador de la empresa de inteligencia artificial Ndea, que creó la prueba ARC-AGI. Dado que estos modelos deben entrenarse desde cero para cada nuevo problema, son “relativamente poco prácticos”, pero “espero que surjan muchas más investigaciones que se basen en estos resultados”, añade.
La única autora del artículo, Alexia Jolicoeur-Martineau, investigadora de inteligencia artificial en el Instituto Avanzado de Tecnología de Samsung en Montreal, Canadá, dice que su modelo muestra que la idea de que sólo los modelos masivos cuyo entrenamiento cuesta millones de dólares pueden tener éxito en tareas difíciles «es una trampa». Ella ha hecho el código del modelo. disponible abiertamente en Github para que cualquiera pueda descargarlo y modificarlo. «Actualmente, se presta demasiada atención a explotar los LLM en lugar de idear y ampliar nuevas líneas de dirección», escribió. en su blog.
Modelo pequeño, grandes resultados
Mayoría modelos de razonamiento se basan en LLM, que predicen la siguiente palabra en una secuencia aprovechando miles de millones de conexiones internas aprendidas, conocidas como parámetros. Se destacan por memorizar patrones de miles de millones de documentos, lo que puede hacerles tropezar cuando se enfrentan a acertijos lógicos impredecibles.
El TRM adopta un enfoque diferente. Jolicoeur-Martineau se inspiró en una técnica conocida como modelo de razonamiento jerárquico, desarrollado por la firma de inteligencia artificial Sapient Intelligence en Singapur. El modelo de razonamiento jerárquico mejora su respuesta a través de múltiples iteraciones y se publicó en una preimpresión en junio.2.
El TRM utiliza un enfoque similar, pero utiliza sólo 7 millones de parámetros, en comparación con los 27 millones del modelo jerárquico y los miles de millones o billones de los LLM. Para cada tipo de rompecabezas que aprende el algoritmo, como un sudoku, Jolicoeur-Martineau entrenó una arquitectura inspirada en el cerebro conocida como red neuronal en alrededor de 1.000 ejemplos, formateados como una cadena de números.
Cómo los agentes de IA cambiarán la investigación: una guía para científicos
Durante el entrenamiento, el modelo adivina la solución y luego la compara con la respuesta correcta, antes de refinar su suposición y repetir el proceso. De esta forma, aprende estrategias para mejorar sus conjeturas. Luego, el modelo adopta un enfoque similar para resolver acertijos invisibles del mismo tipo, refinando sucesivamente su respuesta hasta 16 veces antes de generar una respuesta.






