Facebookは、その歴史的な崩壊がどのように起こったか、そしてそれがどのようにそれを修正したかを説明しています

の秋 Facebook 月曜日に発生した世界的な出来事は、社内で前後しており、5時間以上インターネットから完全に切断されていたということです。これは、世界最大の企業のXNUMXつとしては前例のないことです。 Facebookプラットフォームになりました。 WhatsApp & Instagram 月曜日に発生したクラッシュから100%回復したため、Facebookチームは、クラッシュがどのように発生したか、なぜ発生したか、またどのように修正したかについての詳細を公開しました。 これまでのFacebookの歴史の中で最大のクラッシュについてのすべての詳細を知りたいですか?

Facebookはその歴史的な崩壊がどのように起こったかを説明します

Facebookはどのように機能し、なぜその全体的な落ち込みが起こったのですか?

Facebookは、世界中のサービスの完全な中断は、会社のバックボーンの容量を管理するシステムの障害によるものであることを示しています。このバックボーンは、Facebookネットワークの「バックボーン」であり、Facebookがすべてに分散しているすべてのデータセンターを接続します。データセンターを海底ケーブルで接続しているため、世界中で数千台のサーバーと数百キロメートルの光ファイバーで構成されています。 一部のFacebookデータセンターには、データを保存し、計算負荷が高い数百万のサーバーがありますが、その他の場合、施設は小規模で、一般に人々がプラットフォームを使用できるようにバックボーンをインターネットに接続する役割を果たします。

私たちのようなユーザーがFacebookやInstagramに接続すると、データのリクエストはデバイスから地理的に最も近い施設に移動し、後でバックボーンと直接通信して最大のデータセンターにアクセスします。ここで、リクエストされた情報が取得されます。スマートフォンで確認できるように処理されました。

異なるデータセンター間のすべてのデータトラフィックはルーターによって管理され、ルーターはインバウンドデータとアウトバウンドデータの送信先を決定します。 Facebookのエンジニアリングチームは、日常業務の一環として、このインフラストラクチャを維持し、ルーターのアップグレード、ファイバーラインの修復、特定のネットワークの容量の追加などのタスクを実行する必要があります。 これは月曜日の世界的なFacebookのクラッシュの問題でした。

メンテナンス作業中に、グローバルバックボーン容量の可用性を評価する目的でコマンドが送信されましたが、誤ってすべてのバックボーン接続が切断され、すべてのFacebookデータセンターがグローバルに切断されました。 通常、Facebookはシステムを使用してこれらのタイプのコマンドを監査し、このようなエラーを軽減または回避しますが、この監査および変更管理ツールのエラー(バグ)により注文の実行が停止せず、すべてが崩壊しました。

コマンドを実行すると、Facebookで何が起こりましたか?

コマンドが実行されるとすぐに、インターネットとデータセンターの接続が完全に切断されました。つまり、Facebookサービスはインターネット上に表示されなくなったため、アクセスできませんでした。 さらに、この完全な切断により、システム、より具体的には、 DNS。 小規模なデータセンターのインストールで実行されるタスクのXNUMXつは、DNSクエリに応答することです。これらのクエリは、既知のIPアドレスを持ち、プロトコルBGPを使用してインターネットの他の部分にアドバタイズされる権威ネームサーバーによって応答されます。

より信頼性の高い操作を保証するために、FacebookはDNSサーバーがFacebookのデータセンター自体と通信できない場合にそれらのBGP広告をオフにします。これは、ネットワーク接続が正しく機能していないことを示しているためです。 バックボーンが完全に破壊されたため、これらのDNSサーバーが行ったことはBGPアドバタイズメントを削除することでした。 その結果、FacebookのDNSサーバーは完全に機能していても到達できなくなりました。このため、世界中のFacebookサービスにアクセスできませんでした。

論理的には、このプロセス全体はほんの数秒で完了しましたが、Facebookのエンジニアは何が起こっているのか、そしてその理由を理解しようとしましたが、XNUMXつの重大な問題に直面しました。

  • ネットワークが最初の問題から完全にダウンしていたため、データセンターに正常にアクセスできませんでした。
  • DNSのクラッシュにより、このタイプの問題を調査および解決するために一般的に使用される多くの内部ツールが破損しました。

メインネットワークと帯域外ネットワークへのアクセスがダウンし、何も機能していなかったため、問題を修正してシステムを再起動するために、チームをデータセンターに物理的に派遣する必要がありました。 これらのセンターの物理的セキュリティは最大であるため、これには長い時間がかかりました。実際、Facebookで確認されているように、ネットワークへの物理的攻撃の可能性を回避または軽減するために、これらのセンターに物理的にアクセスして変更を加えることは困難です。 これは、システムに対して認証を行い、何が起こっているのかを確認できるようになるまでに長い時間がかかりました。

生き返る…しかし、システム全体を捨てないように少しずつ

Facebookのデータセンターのさまざまな地域でバックボーン接続が復元されると、すべてが再び正常に機能しましたが、ユーザーにとってはうまくいきませんでした。 多数のユーザーが入場を希望することによるシステムの崩壊を回避するために、トラフィックの急激な増加による新たな問題の発生を回避するために、サービスを少しずつアクティブ化する必要がありました。

問題のXNUMXつは、個々のデータセンターがほとんど電力を使用しておらず、突然すべてのトラフィックを逆転させると、電力網がそれだけの追加電力を吸収できなくなり、電気システムも危険にさらされる可能性があることです。 私はそれらをキャッシュしました。 Facebookはこれらのタイプのイベントについてトレーニングを行っているため、発生したようなグローバルなクラッシュが発生した場合に、より多くの問題を回避するために何をすべきかを完全に理解していました。 Facebookはサーバーとネットワークの多くの問題とクラッシュをシミュレートしましたが、バックボーンの完全な低下を考慮したことはなかったため、近い将来、これをシミュレートして発生を防ぐ方法を模索すると述べています。戻る。 合格すると、修正に非常に時間がかかります。

Facebookはまた、不正アクセスを防止するための物理的セキュリティ対策により、サーバーがこの障害からグローバルに回復しようとしたときに、サーバーへのアクセスが大幅に遅くなるのを見るのは非常に興味深いことを示しています。 いずれにせよ、データセンターのセキュリティ対策を緩和するよりも、これらのタイプの問題から毎日身を守り、回復がやや遅い方がよいでしょう。