Facebook erklärt, wie es zu seinem historischen Untergang kam und wie es behoben wurde

Der Fall von Facebook weltweit, die am Montag aufgetreten ist, war ein Vorher und Nachher in der Firma, und es ist, dass sie für mehr als 5 Stunden vollständig vom Internet getrennt waren, etwas beispielloses für eines der größten Unternehmen der Welt. Jetzt, da die Facebook-Plattform, WhatsApp und Instagram sich zu 100 % von dem Absturz am Montag erholt haben, hat das Facebook-Team Details darüber veröffentlicht, wie der Absturz passiert ist, warum er passiert ist und wie es ihm gelungen ist, ihn zu beheben. Möchten Sie alle Details zum bisher größten Crash in der Geschichte von Facebook erfahren?

Facebook erklärt, wie es zu seinem historischen Untergang kam

Wie funktioniert Facebook und warum kam es zum totalen Untergang?

Facebook hat angegeben, dass die vollständige Unterbrechung des Dienstes weltweit auf einen Ausfall des Systems zurückzuführen ist, das die Kapazität des Backbones des Unternehmens verwaltet. Dieser Backbone ist das „Rückgrat“ des Facebook-Netzwerks, um alle Rechenzentren zu verbinden, die Facebook alle verbreitet hat auf der ganzen Welt, die aus Tausenden von Servern und Hunderten von Kilometern Glasfaser bestehen, da sie auch ihre Rechenzentren mit Seekabeln verbinden. Einige Facebook-Rechenzentren haben Millionen von Servern, die die Daten speichern und eine hohe Rechenlast haben, aber in anderen Fällen sind die Einrichtungen kleiner und dafür verantwortlich, das Backbone mit dem Internet im Allgemeinen zu verbinden, damit die Leute ihre Plattformen nutzen können.

Wenn sich ein Benutzer wie wir mit Facebook oder Instagram verbindet, wandert die Datenanforderung von unserem Gerät zur geografisch nächstgelegenen Einrichtung, um später direkt mit dem Backbone zu kommunizieren, um auf die größten Rechenzentren zuzugreifen verarbeitet, damit wir es auf dem Smartphone sehen können.

Der gesamte Datenverkehr zwischen den verschiedenen Rechenzentren wird von Routern verwaltet, die bestimmen, wohin eingehende und ausgehende Daten gesendet werden sollen. Im Rahmen ihrer täglichen Arbeit muss das Engineering-Team von Facebook diese Infrastruktur warten und Aufgaben wie das Upgrade von Routern, die Reparatur von Glasfaserleitungen oder das Hinzufügen von mehr Kapazität in bestimmten Netzwerken ausführen. Das war das Problem beim weltweiten Facebook-Crash am Montag.

Während der Wartungsarbeiten wurde ein Befehl gesendet, um die Verfügbarkeit der globalen Backbone-Kapazität zu bewerten, der jedoch versehentlich alle Backbone-Verbindungen abbrach und alle Facebook-Rechenzentren weltweit trennte. Im Allgemeinen verwendet Facebook Systeme, um diese Art von Befehlen zu überprüfen und Fehler wie diesen zu mildern oder zu vermeiden, aber ein Fehler (Bug) in diesem Audit- und Änderungskontrolltool verhinderte, dass die Ausführung der Bestellung gestoppt wurde, und dann fiel alles auseinander.

Was ist auf Facebook passiert, als ich den Befehl ausgeführt habe?

Sobald der Befehl ausgeführt wurde, führte dies zu einer vollständigen Trennung der Internet- und Rechenzentrumsverbindungen, dh wir konnten auf keinen der Facebook-Dienste zugreifen, da diese im Internet nicht mehr sichtbar waren. Darüber hinaus verursachte diese vollständige Abschaltung einen zweiten katastrophalen Ausfall im System, genauer gesagt in der DNS. Eine der Aufgaben kleinerer Rechenzentrumsinstallationen besteht darin, auf DNS-Anfragen zu antworten. Diese Anfragen werden von autoritativen Nameservern beantwortet, die über bekannte IP-Adressen verfügen und die dem Rest des Internets über das Protokoll BGP bekannt gegeben werden.

Um einen zuverlässigeren Betrieb zu gewährleisten, lässt Facebook die DNS-Server diese BGP-Anzeigen deaktivieren, wenn sie selbst nicht mit den Rechenzentren von Facebook kommunizieren können, da dies darauf hindeutet, dass die Netzwerkverbindung nicht ordnungsgemäß funktioniert. Bei der totalen Unterbrechung des Backbones entfernten diese DNS-Server die BGP-Werbung. Dies hat zur Folge, dass die DNS-Server von Facebook trotz einwandfreier Funktion unerreichbar wurden und der Rest der Welt aus diesem Grund nicht auf Facebook-Dienste zugreifen konnte.

Logischerweise ging dieser ganze Prozess in Sekundenschnelle, während die Facebook-Ingenieure versuchten herauszufinden, was passierte und warum, standen sie zwei kritischen Problemen gegenüber:

  • Ein normaler Zugriff auf die Rechenzentren war nicht möglich, da die Netzwerke vom ersten Problem an total ausgefallen waren.
  • Der Absturz von DNS hat viele interne Tools zerstört, die häufig verwendet werden, um Probleme dieser Art zu untersuchen und zu lösen.

Der Zugriff auf das Hauptnetzwerk und das Out-of-Band-Netzwerk waren ausgefallen, nichts funktionierte, also mussten sie ein Team von Mitarbeitern physisch ins Rechenzentrum schicken, um das Problem zu beheben und das System neu zu starten. Dies hat lange gedauert, da die physische Sicherheit in diesen Zentren maximal ist. Tatsächlich ist es, wie von Facebook bestätigt, für sie sogar schwierig, physisch darauf zuzugreifen, um Änderungen vorzunehmen, um mögliche physische Angriffe auf ihr Netzwerk zu vermeiden oder abzuschwächen. Dies dauerte lange, bis sie sich beim System authentifizieren und sehen konnten, was passierte.

Wieder zum Leben erwachen … aber nach und nach, um nicht das ganze System wegzuwerfen

Nachdem die Backbone-Konnektivität in den verschiedenen Regionen der Facebook-Rechenzentren wiederhergestellt war, funktionierte alles wieder einwandfrei, jedoch nicht für die Benutzer. Um einen Kollaps ihrer Systeme durch die große Zahl von Benutzern zu vermeiden, die eintreten wollten, mussten sie die Dienste nach und nach aktivieren, um nicht durch den exponentiellen Anstieg des Datenverkehrs neue Probleme zu verursachen.

Eines der Probleme ist, dass die einzelnen Rechenzentren sehr wenig Strom verbrauchten, eine plötzliche Umkehr des gesamten Verkehrs könnte dazu führen, dass das Stromnetz nicht mehr so ​​​​viel zusätzlichen Strom aufnehmen kann und auch elektrische Systeme gefährdet werden könnten. Ich habe sie zwischengespeichert. Facebook hat für diese Art von Ereignissen trainiert, daher wussten sie genau, was sie tun sollten, um im Falle eines globalen Crashs wie dem, der aufgetreten ist, weitere Probleme zu vermeiden. Obwohl Facebook viele Probleme und Abstürze seiner Server und Netzwerke simuliert hatte, dachten sie nie an einen vollständigen Ausfall des Backbones zurück. gehen und es dauert so lange, bis es behoben ist.

Facebook hat auch darauf hingewiesen, dass es sehr interessant war zu sehen, wie physische Sicherheitsmaßnahmen zur Verhinderung unbefugten Zugriffs dazu führten, dass der Zugriff auf Server enorm verlangsamt wurde, als sie versuchten, sich weltweit von diesem Fehler zu erholen. In jedem Fall ist es besser, sich täglich vor solchen Problemen zu schützen und eine etwas langsamere Wiederherstellung vorzunehmen, als die Sicherheitsmaßnahmen der Rechenzentren zu lockern.