
AWS respondió rápidamente, deshaciendo los cambios y aislando los componentes afectados. Las comunicaciones de AWS Support, si bien fueron oportunas, fueron predeciblemente técnicas y carecieron de detalles a medida que se desarrollaba la crisis. Los problemas con el escalado automático, el equilibrio de carga y el enrutamiento del tráfico provocaron efectos posteriores en servicios aparentemente no relacionados. Es un recordatorio de que, a pesar del enfoque en la “resiliencia” y las “zonas de disponibilidad”, la infraestructura de la nube todavía está sujeta a las mismas leyes fundamentales de la física y las vulnerabilidades del software, como cualquier cosa en su propio centro de datos.
La resolución final llegó unas horas más tarde, después de que los ingenieros de redes reequilibraran manualmente los sistemas distribuidos y verificaran la restauración de las operaciones normales. La conectividad regresó, pero algunos clientes informaron inconsistencias en los datos y retrasos API recuperaciones y lentos tiempos de recuperación. La lucha por comunicarse con los clientes, restablecer procesos y resolver el trabajo atrasado sirvió como un duro recordatorio: la continuidad del negocio depende de algo más que la esperanza y un sólido discurso de marketing por parte de su proveedor.
El mito del SLA a prueba de balas
Algunas empresas esperaban soluciones inmediatas a partir de los legendarios acuerdos de nivel de servicio de AWS. Esta es la realidad: los créditos SLA son un escaso consuelo cuando su canal de ingresos está en caída libre. La verdad que todo CIO ha enfrentado al menos una vez es que incluso los SLA líderes en la industria rara vez compensan el costo real del tiempo de inactividad. No compensan las oportunidades perdidas, las reputaciones dañadas ni el estrés de sus equipos. A medida que aumentan las interrupciones regionales debido al crecimiento de los centros de datos en la nube a hiperescala, cada uno de los cuales lucha por manejar el aumento de la demanda impulsada por la IA, la red de seguridad se vuelve menos confiable.




