Facebook объясняет, как произошло его историческое падение и как он его исправил

Падение Facebook Во всем мире, произошедшее в понедельник, было до и после в компании, и это то, что они были полностью отключены от Интернета более чем на 5 часов, что является беспрецедентным для одной из крупнейших компаний в мире. Теперь, когда платформа Facebook, WhatsApp и Instagram восстановились на 100% после сбоя, произошедшего в понедельник, команда Facebook опубликовала подробную информацию о том, как произошел сбой, почему это произошло, а также как им удалось его исправить. Хотите узнать все подробности о крупнейшем сбое в истории Facebook?

Facebook объясняет, как произошло его историческое падение

Как работает Facebook и почему произошел его полный провал?

Facebook указал, что полное прерывание обслуживания во всем мире произошло из-за отказа системы, которая управляет пропускной способностью магистрали компании, эта магистраль является «магистралью» сети Facebook, для подключения всех центров обработки данных, которые Facebook распространил на все по всему миру, которые состоят из тысяч серверов и сотен километров волоконной оптики, поскольку они также соединяют его центры обработки данных с помощью подводных кабелей. Некоторые центры обработки данных Facebook имеют миллионы серверов, на которых хранятся данные и имеют высокую вычислительную нагрузку, но в других случаях объекты меньше и отвечают за подключение магистрали к Интернету в целом, чтобы люди могли использовать свои платформы.

Когда какой-либо пользователь, подобный нам, подключается к Facebook или Instagram, запрос данных передается от нашего устройства к ближайшему географическому объекту, чтобы впоследствии напрямую связываться с магистралью для доступа к крупнейшим центрам обработки данных, именно здесь он извлекает запрошенную информацию и обработано, чтобы мы могли увидеть его на смартфоне.

Весь трафик данных между различными центрами обработки данных управляется маршрутизаторами, которые определяют, куда должны отправляться входящие и исходящие данные. В рамках своей повседневной работы инженерной группе Facebook необходимо поддерживать эту инфраструктуру и выполнять такие задачи, как обновление маршрутизаторов, ремонт оптоволоконных линий или увеличение пропускной способности в определенных сетях. Это была проблема глобального краха Facebook в понедельник.

Во время работ по техническому обслуживанию была отправлена ​​команда с намерением оценить доступность глобальной магистральной пропускной способности, но она случайно отключила все магистральные соединения, отключив все центры обработки данных Facebook во всем мире. Как правило, Facebook использует системы для аудита этих типов команд, а также для смягчения или предотвращения подобных ошибок, но ошибка (ошибка) в этом инструменте аудита и управления изменениями помешала остановке выполнения заказа, и затем все развалилось.

Что произошло на Facebook, когда я запустил команду?

Как только команда была выполнена, это привело к полному отключению подключения к Интернету и центру обработки данных, то есть мы не могли получить доступ ни к одной из служб Facebook, потому что они больше не были видны в Интернете. Кроме того, это полное отключение вызвало второй катастрофический отказ в системе, в частности, в DNS. Одна из задач, которую выполняют небольшие центры обработки данных, - это отвечать на запросы DNS, на эти запросы отвечают авторитетные серверы имен, которые имеют хорошо известные IP-адреса и которые объявляются остальной части Интернета с использованием протокола BGP.

Чтобы обеспечить более надежную работу, Facebook заставляет DNS-серверы отключать эти BGP-объявления, если они не могут сами разговаривать с центрами обработки данных Facebook, потому что это указывает на то, что сетевое соединение не работает должным образом. При полном нарушении работы магистрали эти DNS-серверы удалили рекламу BGP. В результате DNS-серверы Facebook стали недоступными, хотя они работали отлично, по этой причине остальной мир не мог получить доступ к службам Facebook.

По логике, весь этот процесс занял считанные секунды, пока инженеры Facebook пытались выяснить, что происходит и почему, они столкнулись с двумя критическими проблемами:

  • Было невозможно получить доступ к центрам обработки данных в обычном режиме, потому что сети были полностью отключены из-за первой проблемы.
  • Авария DNS нарушила работу многих внутренних инструментов, которые обычно используются для исследования и решения проблем этого типа.

Доступ к основной сети и внеполосной сети был отключен, ничего не работало, поэтому им пришлось физически отправить группу людей в центр обработки данных, чтобы решить проблему и перезагрузить систему. Это заняло много времени, потому что физическая безопасность в этих центрах максимальна. Фактически, как подтверждено Facebook, им даже трудно получить физический доступ к ним для внесения изменений, чтобы избежать или смягчить возможные физические атаки на их сеть. Это заняло много времени, прежде чем они смогли аутентифицироваться в системе и увидеть, что происходит.

Возвращение к жизни… но понемногу, чтобы не выбросить всю систему.

После восстановления магистральной связи в различных регионах центров обработки данных Facebook все снова стало работать нормально, но не для пользователей. Чтобы избежать коллапса в их системах из-за огромного количества пользователей, которые хотели войти, им приходилось очень мало-помалу активировать услуги, чтобы не создавать новых проблем из-за экспоненциального увеличения трафика.

Одна из проблем заключается в том, что отдельные центры обработки данных потребляли очень мало электроэнергии, внезапное изменение направления всего трафика могло привести к тому, что электрическая сеть не сможет поглощать такую ​​дополнительную мощность, а также может поставить под угрозу электрические системы. Я их кэшировал. Facebook подготовился к событиям такого типа, поэтому они прекрасно знали, что им следует делать, чтобы избежать дополнительных проблем в случае глобального сбоя, подобного тому, который произошел. Хотя Facebook смоделировал множество проблем и сбоев своих серверов и сетей, они никогда не рассматривали полное падение магистрали, поэтому они уже заявили, что будут искать способ смоделировать это в самом ближайшем будущем, чтобы предотвратить его появление. назад. пройти, и это займет так много времени, чтобы исправить.

Facebook также указал, что было очень интересно увидеть, как меры физической безопасности для предотвращения несанкционированного доступа привели к значительному замедлению доступа к серверам, когда они пытались восстановиться после этого сбоя в глобальном масштабе. В любом случае лучше ежедневно защищаться от подобных проблем и восстанавливаться несколько медленнее, чем ослаблять меры безопасности центров обработки данных.