Facebook se desconectó durante seis horas debido a un error de configuración

Facebook, WhatsApp, Instagram y cualquier servicio que utilice los servicios de Facebook no estuvieron disponibles durante seis horas ayer (4 de octubre de 2021), debido a un cambio de configuración que desconectó a Facebook de Internet.

Según algunos informes, los ingenieros de Facebook tampoco pudieron acceder a los servidores de Facebook de forma remota, lo que significaba que los administradores necesitaban acceso físico al hardware del centro de datos para resolver el problema. El problema se agravó debido a la forma en que funciona Internet, que replicó de forma autónoma la configuración incorrecta en todo el mundo. De hecho, miles de millones de personas no pudieron acceder a los servicios basados ​​en Facebook.

Santosh Janardhan, vicepresidente de infraestructura de Facebook, emitió una disculpa en una publicación de blog: “A todas las personas y empresas de todo el mundo que dependen de nosotros, lamentamos las molestias causadas por la interrupción de hoy en nuestras plataformas. a todos los afectados, y estamos trabajando para comprender más sobre lo que sucedió hoy para que podamos continuar haciendo que nuestra infraestructura sea más resistente “.

En la publicación, Janardhan dijo que los cambios de configuración en los enrutadores de la red troncal que coordinan el tráfico de red entre los centros de datos de Facebook causaron problemas que interrumpieron las comunicaciones. “Esta interrupción del tráfico de la red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, lo que paralizó nuestros servicios”, dijo.

Según el análisis de Cloudfare de la interrupción, el cambio de configuración hizo que los nombres de DNS de Facebook dejaran de resolver direcciones IP. En efecto, esto significaba que las IP de su infraestructura eran inalcanzables. “Era como si alguien hubiera ‘sacado los cables’ de sus centros de datos de una vez y los hubiera desconectado de Internet”, señaló Cloudflare en una publicación de blog.

“A las 16:58 UTC notamos que Facebook había dejado de anunciar las rutas a sus prefijos DNS. Eso significaba que, al menos, los servidores DNS de Facebook no estaban disponibles. Debido a esto, el sistema de resolución de DNS 1.1.1.1 de Cloudflare ya no podía responder a las consultas que solicitaban la dirección IP de facebook.com o instagram.com ”, afirmó Cloudflare en la publicación del blog.

Según Cloudflare, el problema del DNS fuera de línea se vio agravado por el Border Gateway Protocol (BGP), un mecanismo para intercambiar información de enrutamiento entre sistemas autónomos (AS) en Internet. Internet es efectivamente una red de redes unidas por BGP.

Cada una de estas redes tiene un número de sistema autónomo (ASN) con una política de enrutamiento interna unificada. Según Cloudflare, cada ASN debe anunciar sus rutas de prefijo a Internet utilizando BGP; de lo contrario, nadie sabrá cómo conectarse y dónde encontrar servicios basados ​​en Internet.

Sus datos de registro del tráfico de Internet mostraron que hubo un pico de cambios de enrutamiento desde Facebook a las 15:40 UTC.

“Fue entonces cuando empezó el problema. Se retiraron las rutas, los servidores DNS de Facebook se desconectaron y, un minuto después de que ocurriera el problema, los ingenieros de Cloudflare estaban en una habitación preguntándose por qué [1.1.1.1, our DNS resolver] no podía resolver facebook.com y me preocupaba que de alguna manera fuera una falla en nuestros sistemas ”, dijo Cloudfare.

La red de redes que conforma Internet está diseñada para ofrecer resiliencia y el tráfico IP se enruta automáticamente mediante el sistema DNS. Pero con los cambios de configuración que hizo Facebook, otros servidores DNS ya no podían “ver” los servidores de nombres de Facebook, que traducen facebook.com a una dirección IP física, y asumieron que estaban desconectados.

“Debido a que Facebook dejó de anunciar sus rutas de prefijo DNS a través de BGP, nuestros resolutores de DNS y todos los demás no tenían forma de conectarse a sus servidores de nombres. En consecuencia, 1.1.1.1, 8.8.8.8 y otros importantes solucionadores de DNS públicos comenzaron a emitir (y almacenar en caché) respuestas SERVFAIL ”, señaló Cloudflare.

Dado que las aplicaciones web tienden a seguir intentando acceder a los servidores incluso si emiten el error SERVFAIL, Cloudflare dijo que vio un gran aumento en las solicitudes de DNS. Sus datos de registro mostraron un aumento de 30 veces en este tipo de solicitudes. Según Cloudflare, los servicios de Facebook se reanudaron a las 21:28 UTC.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales