Un único punto de falla desencadenó la interrupción de Amazon que afectó a millones

A su vez, el retraso en las propagaciones del estado de la red se extendió a un equilibrador de carga de red del que dependen los servicios de AWS para su estabilidad. Como resultado, los clientes de AWS experimentaron errores de conexión en la región US-East-1. Las funciones de red de AWS afectadas incluyeron la creación y modificación de clústeres de Redshift, invocaciones de Lambda y lanzamientos de tareas de Fargate, como flujos de trabajo administrados para Apache Airflow, operaciones del ciclo de vida de Outposts y el Centro de soporte de AWS.

Por el momento, Amazon ha deshabilitado el planificador de DNS de DynamoDB y la automatización de DNS Enactor en todo el mundo mientras trabaja para corregir la condición de carrera y agregar protecciones para evitar la aplicación de planes de DNS incorrectos. Los ingenieros también están realizando cambios en EC2 y su equilibrador de carga de red.

Un cuento con moraleja

Ookla describió un factor contribuyente que Amazon no menciona: una concentración de clientes que enrutan su conectividad a través del punto final US-East-1 y la incapacidad de realizar rutas alrededor de la región. Okla explicó:

El US-EAST-1 afectado es el centro más antiguo y más utilizado de AWS. La concentración regional significa que incluso las aplicaciones globales a menudo anclan allí flujos de identidad, estado o metadatos. Cuando una dependencia regional falla, como fue el caso en este evento, los impactos se propagan por todo el mundo porque muchas pilas “globales” pasan por Virginia en algún momento.

Las aplicaciones modernas encadenan servicios administrados como almacenamiento, colas y funciones sin servidor. Si DNS no puede resolver de manera confiable un punto final crítico (por ejemplo, la API de DynamoDB involucrada aquí), los errores se propagan en cascada a través de las API ascendentes y causan fallas visibles en las aplicaciones que los usuarios no asocian con AWS. Eso es precisamente lo que Downdetector registró en Snapchat, Roblox, Signal, Ring, HMRC y otros.

El evento sirve como advertencia para todos los servicios en la nube: más importante que prevenir condiciones de carrera y errores similares es eliminar puntos únicos de falla en el diseño de la red.

«El camino a seguir», dijo Ookla, «no es falla cero sino falla contenida, lograda a través de diseños multirregionales, diversidad de dependencia y preparación disciplinada ante incidentes, con una supervisión regulatoria que avance hacia el tratamiento de la nube como componentes sistémicos de la resiliencia nacional y económica».

Un único punto de falla desencadenó la interrupción de Amazon que afectó a millones

Team

Los Azulejos derrotan a los Dodgers 11-4 en el primer partido de la Serie Mundial: NPR

Deja una respuesta Cancelar la respuesta

Recomendada

La startup del analista de datos de IA Julius Nabs Semiled Ronda

'Ninguna iniciativa Debe Afectar el Derecho de Libertad Religiosa'

Noticias populares

«EVOLARA: TU SEGUNDO VUELO»

15 lugares para visitar en la Antártida no puede permitirse perderse

Banco de semillas liderado por indígenas protege la biodiversidad del Amazonas – Latin America News Dispatch

La Inteligencia Artificial Gran Aporte al Turismo en la Región de Los Lagos

INFORME: Los demócratas pusieron al corrupto fiscal general de Obama, Eric Holder, a cargo de examinar a los candidatos a vicepresidente para Kamala Harris | The Gateway Pundit

Sobre nosotras

Categoría

Mensajes recientes