Nvidia ha hecho una fortuna suministrando chips a empresas que trabajan en inteligencia artificialpero hoy el fabricante de chips dio un paso para convertirse en un fabricante de modelos más serio al lanzar una serie de modelos abiertos de vanguardia, junto con datos y herramientas para ayudar a los ingenieros a utilizarlos.
La medida, que llega en un momento en que empresas de inteligencia artificial como OpenAI, Google y Anthropic están desarrollando chips propios cada vez más capaces, podría ser una protección contra estas empresas que se alejan de la tecnología de Nvidia con el tiempo.
Los modelos abiertos ya son una parte crucial del ecosistema de IA y muchos investigadores y nuevas empresas los utilizan para experimentar, crear prototipos y construir. Si bien OpenAI y Google ofrecen pequeños modelos abiertos, no los actualizan con tanta frecuencia como sus rivales en China. Por esta y otras razones, los modelos abiertos de empresas chinas son actualmente mucho más populares, según datos de Hugging Faceuna plataforma de alojamiento para proyectos de código abierto.
Los nuevos modelos Nemotron 3 de Nvidia se encuentran entre los mejores que se pueden descargar, modificar y ejecutar en el propio hardware, según las puntuaciones comparativas compartidas por la compañía antes del lanzamiento.
«La innovación abierta es la base del progreso de la IA», dijo el director ejecutivo, Jensen Huang, en un comunicado antes de la noticia. «Con Nemotron, estamos transformando la IA avanzada en una plataforma abierta que brinda a los desarrolladores la transparencia y eficiencia que necesitan para construir sistemas agentes a escala».
Nvidia está adoptando un enfoque más transparente que muchos de sus rivales estadounidenses al publicar los datos utilizados para entrenar a Nemotron, un hecho que debería ayudar a los ingenieros a modificar los modelos más fácilmente. La empresa también está lanzando herramientas para ayudar con la personalización y el ajuste. Esto incluye una nueva arquitectura de modelo híbrido latente de mezcla de expertos, que según Nvidia es especialmente buena para crear agentes de inteligencia artificial que puedan realizar acciones en computadoras o en la web. La compañía también está lanzando bibliotecas que permiten a los usuarios capacitar a los agentes para que hagan cosas usando aprendizaje por refuerzoque consiste en dar modelos de recompensas y castigos simulados.
Los modelos Nemotron 3 vienen en tres tamaños: Nano, que tiene 30 mil millones de parámetros; Super, que tiene 100 mil millones; y Ultra, que tiene 500 mil millones. Los parámetros de un modelo corresponden vagamente a su capacidad y a su dificultad de funcionamiento. Los modelos más grandes son tan engorrosos que necesitan funcionar en bastidores de hardware costoso.
Fundaciones modelo
Kari Ann Briski, vicepresidenta de software de IA generativa para empresas de Nvidia, dijo que los modelos abiertos son importantes para los creadores de IA por tres razones: los constructores necesitan cada vez más personalizar los modelos para tareas particulares; a menudo resulta útil transferir las consultas a diferentes modelos; y es más fácil obtener respuestas más inteligentes de estos modelos después del entrenamiento haciendo que realicen una especie de razonamiento simulado. «Creemos que el código abierto es la base para la innovación en IA y continúa acelerando la economía global», dijo Briski.
El gigante de las redes sociales Meta lanzó los primeros modelos abiertos avanzados bajo el nombre Llama en febrero de 2023. Sin embargo, a medida que la competencia se ha intensificado, Meta ha señalado que sus futuros lanzamientos podrían no ser de código abierto.
La medida es parte de una tendencia más amplia en la industria de la IA. Durante el año pasado, las empresas estadounidenses se alejaron de la apertura, volviéndose más reservadas sobre sus investigaciones y más reacias a avisar a sus rivales sobre sus últimos trucos de ingeniería.




