
Sin embargo, la naturaleza de escalamiento automático de estos puntos finales de inferencia podría no ser suficiente para varias situaciones que las empresas pueden enfrentar, incluidas cargas de trabajo que requieren baja latencia y alto rendimiento constante, pruebas críticas y entornos de preproducción donde se debe garantizar la disponibilidad de recursos, y cualquier situación en la que un tiempo de escalamiento lento no sea aceptable y pueda dañar la aplicación o el negocio.
Según AWS, los FTP para cargas de trabajo de inferencia tienen como objetivo abordar este problema permitiendo a las empresas reservar tipos de instancias y GPU requeridas, ya que la ampliación automática no garantiza la disponibilidad instantánea de la GPU debido a la alta demanda y la oferta limitada.
El soporte de FTP para la inferencia de IA de SageMaker está disponible en el este de EE. UU. (Norte de Virginia), el oeste de EE. UU. (Oregón) y el este de EE. UU. (Ohio), dijo AWS.




