Latam-GPT es nuevo El modelo de lenguaje grande se está desarrollando en y para América Latina. El proyecto, dirigido por el Centro Nacional de Inteligencia Artificial sin fines de lucro (CENIA), tiene como objetivo ayudar a la región a lograr la independencia tecnológica mediante el desarrollo de un modelo de IA de código abierto capacitado en idiomas y contextos latinoamericanos.
«Este trabajo no puede ser realizado por un solo grupo o un país en América Latina: es un desafío que requiere la participación de todos», dice Álvaro Soto, director de Cenia, en una entrevista con Wired en Español. «Latam-GPT es un proyecto que busca crear un modelo de IA abierto, gratuito y, sobre todo, colaborativo. Hemos estado trabajando durante dos años con un proceso muy ascendente, que reúne a ciudadanos de diferentes países que desean colaborar. Recientemente, también ha visto algunas iniciativas más de arriba hacia abajo, con los gobiernos que se interesan y comienzan a participar en el proyecto».
El proyecto se destaca por su espíritu colaborativo. «No estamos buscando competir con Openai, Deepseek o Google. Queremos un modelo específico para América Latina y el Caribe, consciente de los requisitos y desafíos culturales que esto conlleva, como comprender los diferentes dialectos, la historia de la región y los aspectos culturales únicos», explica Soto.
Gracias a 33 asociaciones estratégicas con instituciones en América Latina y el Caribe, el proyecto ha reunido un corpus de datos que excede los ocho terabytes de texto, el equivalente a millones de libros. Esta base de información ha permitido el desarrollo de un modelo de idioma con 50 mil millones de parámetros, una escala que la hace comparable a GPT-3.5 y le brinda una capacidad media a alta para realizar tareas complejas como razonamiento, traducción y asociaciones.
Latam-GPT está siendo capacitado en una base de datos regional que compila información de 20 países latinoamericanos y España, con un impresionante total de 2,645,500 documentos. La distribución de datos muestra una concentración significativa en los países más grandes de la región, con Brasil el líder con 685,000 documentos, seguido de México con 385,000, España con 325,000, Colombia con 220,000 y Argentina con 210,000 documentos. Los números reflejan el tamaño de estos mercados, su desarrollo digital y la disponibilidad de contenido estructurado.
«Inicialmente, lanzaremos un modelo de idioma. Esperamos que su rendimiento en las tareas generales sea cercana al de los grandes modelos comerciales, pero con un rendimiento superior en temas específicos para América Latina. La idea es que, si le preguntamos sobre temas relevantes para nuestra región, su conocimiento será mucho más profundo», explica Soto.
El primer modelo es el punto de partida para desarrollar una familia de tecnologías más avanzadas en el futuro, incluidas las de imagen y video, y para ampliar los modelos más grandes. «Como este es un proyecto abierto, queremos que otras instituciones puedan usarlo. Un grupo en Colombia podría adaptarlo para el sistema de educación escolar o una en Brasil podría adaptarlo para el sector de la salud. La idea es abrir la puerta para que las diferentes organizaciones generen modelos específicos para áreas particulares como la agricultura, la cultura y otros», explica el director de la Cenia.




