O Facebook explica como sua queda histórica aconteceu e como a corrigiu

A queda de Facebook mundialmente o que ocorreu na segunda-feira foi um antes e um depois na empresa, e é que eles ficaram completamente desconectados da internet por mais de 5 horas, algo inédito para uma das maiores empresas do mundo. Agora que a plataforma do Facebook, WhatsApp e Instagram se recuperaram 100% do acidente que ocorreu na segunda-feira, a equipe do Facebook publicou detalhes sobre como o acidente aconteceu, por que aconteceu e também como eles conseguiram corrigi-lo. Quer saber todos os detalhes sobre a maior falha da história do Facebook até agora?

O Facebook explica como sua queda histórica aconteceu

Como o Facebook funciona e por que sua queda total ocorreu?

O Facebook indicou que a interrupção total do serviço a nível mundial deveu-se a uma falha do sistema que gere a capacidade do backbone da empresa, este backbone é o “backbone” da rede do Facebook, para ligar todos os centros de dados que o Facebook espalhou por todos em todo o mundo, que consistem em milhares de servidores e centenas de quilômetros de fibra ótica, já que também conectam seus data centers com cabos submarinos. Alguns data centers do Facebook possuem milhões de servidores que armazenam os dados e têm uma alta carga computacional, mas em outros casos as instalações são menores e são responsáveis ​​por conectar o backbone à Internet em geral para que as pessoas utilizem suas plataformas.

Quando algum usuário como nós se conecta ao Facebook ou Instagram, a solicitação de dados viaja de nosso dispositivo para a instalação mais próxima geograficamente, para depois se comunicar diretamente com o backbone para acessar os maiores centros de dados, é aqui que se recupera as informações solicitadas e é processado, para a gente ver no smartphone.

Todo o tráfego de dados entre os diferentes data centers é gerenciado por roteadores, que determinam para onde os dados de entrada e saída devem ser enviados. Como parte de seu trabalho diário, a equipe de engenharia do Facebook precisa manter essa infraestrutura e realizar tarefas como atualizar roteadores, consertar linhas de fibra ou adicionar mais capacidade em certas redes. Esse foi o problema com o crash global do Facebook na segunda-feira.

Durante os trabalhos de manutenção, foi enviado um comando com o intuito de avaliar a disponibilidade da capacidade do backbone global, mas sem querer cortou todas as conexões do backbone, desconectando todos os data centers do Facebook globalmente. Geralmente, o Facebook usa sistemas para auditar esses tipos de comandos, e mitigar ou evitar erros como este, mas um erro (bug) nesta ferramenta de auditoria e controle de alterações impediu que a execução do pedido fosse interrompida, e então tudo desmoronou.

O que aconteceu no Facebook quando executei o comando?

Assim que o comando foi executado, causou uma desconexão total das conexões da Internet e do datacenter, ou seja, não foi possível acessar nenhum dos serviços do Facebook por não estarem mais visíveis na Internet. Além disso, essa desconexão total causou uma segunda falha catastrófica no sistema, mais especificamente no DNS. Uma das tarefas que as instalações de centros de dados menores realizam é ​​responder às consultas DNS, essas consultas são respondidas por servidores de nomes autorizados que têm endereços IP conhecidos e que são anunciados para o resto da Internet usando o protocolo BGP.

Para garantir uma operação mais confiável, o Facebook faz com que os servidores DNS desliguem esses anúncios BGP se eles não puderem se comunicar com os centros de dados do Facebook, porque isso indica que a conexão de rede não está funcionando corretamente. Com a interrupção total do backbone, o que esses servidores DNS fizeram foi remover os anúncios BGP. O resultado disso é que os servidores DNS do Facebook ficaram inacessíveis, embora funcionassem perfeitamente, por isso o resto do mundo não conseguia acessar os serviços do Facebook.

Logicamente, todo esse processo foi em questão de segundos, enquanto os engenheiros do Facebook tentavam descobrir o que estava acontecendo e por quê, eles enfrentaram dois problemas críticos:

  • Não foi possível acessar os data centers normalmente, pois as redes estavam totalmente desligadas desde o primeiro problema.
  • A queda do DNS quebrou muitas ferramentas internas comumente usadas para investigar e resolver problemas desse tipo.

O acesso à rede principal e à rede out-of-band estavam inoperantes, nada estava funcionando, então eles tiveram que enviar fisicamente uma equipe de pessoas ao data center para consertar o problema e reinicializar o sistema. Isso demorou muito porque a segurança física nesses centros é máxima, de fato, conforme confirma o Facebook, é até difícil para eles acessá-los fisicamente para fazer modificações, a fim de evitar ou mitigar possíveis ataques físicos à sua rede. Isso levou muito tempo até que eles pudessem se autenticar no sistema e ver o que estava acontecendo.

Voltando à vida ... mas aos poucos para não jogar todo o sistema fora

Depois que a conectividade do backbone foi restaurada nas diferentes regiões dos data centers do Facebook, tudo voltou a funcionar bem, mas não para os usuários. Para evitar um colapso em seus sistemas devido ao grande número de usuários que desejavam entrar, eles tiveram que ativar os serviços aos poucos, para não causar novos problemas devido ao aumento exponencial do tráfego.

Um dos problemas é que os data centers individuais estavam usando muito pouca energia elétrica, e de repente inverter todo o tráfego poderia tornar a rede elétrica incapaz de absorver tanta energia adicional e poderia colocar os sistemas elétricos também em risco. Eu os armazenei em cache. O Facebook treinou para esse tipo de evento, então eles sabiam perfeitamente o que deveriam fazer para evitar mais problemas no caso de um crash global como o que aconteceu. Embora o Facebook tenha simulado muitos problemas e travamentos de seus servidores e redes, eles nunca haviam considerado uma queda total do backbone, então eles já afirmaram que irão procurar uma maneira de simular isso em um futuro muito próximo para evitar que isso aconteça de volta. passar e demora muito para consertar.

O Facebook também indicou que foi muito interessante ver como as medidas de segurança física para evitar o acesso não autorizado fizeram com que o acesso aos servidores diminuísse enormemente enquanto tentavam se recuperar dessa falha globalmente. Em qualquer caso, é melhor se proteger diariamente contra esses tipos de problemas e ter uma recuperação um pouco mais lenta, do que relaxar as medidas de segurança dos data centers.