
La respuesta obvia serían los nuevos sistemas GB200 de Nvidia, esencialmente un servidor gigante de 72 GPU. Pero cuestan millones, enfrentan una escasez extrema de suministro y no están disponibles en todas partes, anotaron los investigadores. Mientras tanto, los sistemas H100 y H200 son abundantes y relativamente baratos.
El problema: ejecutar modelos grandes en múltiples sistemas antiguos tradicionalmente ha significado penalizaciones brutales en el rendimiento. «No existen soluciones viables entre proveedores para la inferencia LLM», escribió el equipo de investigación, señalando que las bibliotecas existentes carecen por completo de soporte de AWS o sufren una grave degradación del rendimiento en el hardware de Amazon.
TransferEngine pretende cambiar eso. «TransferEngine permite la comunicación portátil punto a punto para arquitecturas LLM modernas, evitando la dependencia del proveedor y al mismo tiempo complementa las bibliotecas colectivas para implementaciones nativas de la nube», escribieron los investigadores.




