Facebook kertoo, miten sen historiallinen kaatuminen tapahtui ja miten se korjattiin

Syksyllä Facebook Maailmanlaajuinen tapahtuma maanantaina on ollut ennen ja jälkeen yrityksessä, ja se on, että he olivat täysin irti Internetistä yli 5 tunniksi, mikä on ennennäkemätöntä yhdelle maailman suurimmista yrityksistä. Nyt kun Facebook -alusta, WhatsApp ja Instagram ovat toipuneet sataprosenttisesti maanantaina sattuneesta onnettomuudesta, Facebook -tiimi on julkaissut tietoja siitä, miten onnettomuus tapahtui, miksi se tapahtui ja miten he onnistuivat korjaamaan sen. Haluatko tietää kaikki yksityiskohdat Facebookin historian suurimmasta kaatumisesta tähän mennessä?

Miten Facebook toimii ja miksi sen täydellinen kaatuminen tapahtui?

Facebook on ilmoittanut, että palvelun keskeytys maailmanlaajuisesti johtui yrityksen rungon kapasiteettia hallitsevan järjestelmän viasta, tämä selkäranka on Facebook -verkon "selkäranka", joka yhdistää kaikki Facebookin levittämät tietokeskukset ympäri maailmaa, joka koostuu tuhansista palvelimista ja satojen kilometrien kuituoptiikasta, koska ne yhdistävät myös sen datakeskukset sukellusveneisiin. Joissakin Facebookin palvelinkeskuksissa on miljoonia palvelimia, jotka tallentavat tiedot ja joilla on suuri laskennallinen kuormitus, mutta muissa tapauksissa tilat ovat pienempiä ja ne ovat vastuussa selkärangan yhdistämisestä Internetiin yleensä, jotta ihmiset voivat käyttää alustojaan.

Kun kuka tahansa kaltaisemme käyttäjä muodostaa yhteyden Facebookiin tai Instagramiin, tietopyyntö kulkee laitteeltamme lähimpään laitokseen maantieteellisesti, jotta he voisivat myöhemmin kommunikoida suoraan rungon kanssa päästäkseen suurimpiin palvelinkeskuksiin, täältä se hakee pyydetyt tiedot ja käsitelty, jotta voimme nähdä sen älypuhelimessa.

Kaikkia dataliikennettä eri datakeskusten välillä hallinnoivat reitittimet, jotka määrittävät mihin saapuvat ja lähtevät tiedot lähetetään. Osana päivittäistä työtään Facebookin suunnittelutiimin on ylläpidettävä tätä infrastruktuuria ja suoritettava tehtäviä, kuten reitittimien päivittäminen, kuitulinjojen korjaaminen tai kapasiteetin lisääminen tietyissä verkoissa. Tämä oli ongelma maailmanlaajuisessa Facebook -onnettomuudessa maanantaina.

Huoltotöiden aikana lähetettiin komento, jonka tarkoituksena oli arvioida maailmanlaajuisen runkokapasiteetin saatavuus, mutta se katkaisi vahingossa kaikki runkoliitännät ja katkaisi kaikki Facebook -palvelinkeskukset maailmanlaajuisesti. Yleensä Facebook käyttää järjestelmiä tämän tyyppisten komentojen tarkastamiseen ja tällaisten virheiden lieventämiseen tai välttämiseen, mutta virhe (vika) tässä tarkastus- ja muutoksenhallintatyökalussa esti tilauksen suorittamisen pysäyttämisen ja sitten kaikki hajosi.

Mitä tapahtui Facebookissa, kun suoritin komennon?

Heti kun komento oli suoritettu, se katkaisi Internetin ja datakeskusyhteyksien täydellisen katkeamisen, toisin sanoen emme voineet käyttää mitään Facebook -palveluista, koska ne eivät olleet enää näkyvissä Internetissä. Lisäksi tämä täydellinen katkaisu aiheutti toisen katastrofaalisen vian järjestelmässä, erityisesti DNS. Yksi pienempien datakeskusasennusten tehtävistä on vastata DNS-kyselyihin. Näihin kyselyihin vastaavat valtuutetut nimipalvelimet, joilla on tunnetut IP-osoitteet ja jotka mainostetaan muulle Internetille käyttämällä BGP-protokollaa.

Luotettavamman toiminnan varmistamiseksi Facebookissa DNS -palvelimet sammuttavat nämä BGP -mainokset, jos he eivät voi puhua Facebookin palvelinkeskuksille itse, koska tämä osoittaa, että verkkoyhteys ei toimi oikein. Kun selkäranka katkesi kokonaan, nämä DNS -palvelimet poistivat BGP -mainokset. Tuloksena on, että Facebookin DNS -palvelimet eivät ole tavoitettavissa, vaikka ne toimivat täydellisesti, joten muu maailma ei voinut käyttää Facebook -palveluita.

Loogisesti koko prosessi kesti muutamassa sekunnissa, kun taas Facebookin insinöörit yrittivät selvittää, mitä tapahtui ja miksi, he kohtasivat kaksi kriittistä ongelmaa:

Tietokeskuksiin ei ollut mahdollista päästä normaalisti, koska verkot olivat täysin poissa ensimmäisestä ongelmasta.
DNS -kaatuminen rikkoi monia sisäisiä työkaluja, joita käytetään yleisesti tämän tyyppisten ongelmien tutkimiseen ja ratkaisemiseen.

Pääverkon ja kaistan ulkopuolisen verkon käyttö oli poissa, mikään ei toiminut, joten heidän oli fyysisesti lähetettävä joukko ihmisiä datakeskukseen korjaamaan ongelma ja käynnistämään järjestelmä uudelleen. Tämä kesti kauan, koska fyysinen turvallisuus näissä keskuksissa on maksimaalinen, itse asiassa, kuten Facebook on vahvistanut, heidän on jopa vaikea päästä niihin fyysisesti käsiksi tekemään muutoksia, jotta voidaan välttää tai lieventää mahdollisia fyysisiä hyökkäyksiä verkkoonsa. Kesti kauan, ennen kuin he pystyivät todentamaan järjestelmän ja näkemään, mitä tapahtui.

Paluu elämään ... mutta pikkuhiljaa, jotta koko järjestelmä ei heitettäisi pois

Kun runkoliitäntä palautettiin Facebookin palvelinkeskusten eri alueille, kaikki toimi jälleen hyvin, mutta ei käyttäjille. Välttääkseen järjestelmiensä romahtamisen sisäänpääsyä haluttavien käyttäjien suuren määrän vuoksi heidän oli aktivoitava palvelut vähitellen, jotta vältyttäisiin aiheuttamasta uusia ongelmia liikenteen räjähdysmäisen kasvun vuoksi.

Yksi ongelmista on se, että yksittäiset palvelinkeskukset käyttivät hyvin vähän sähköä, ja äkillisesti kaiken liikenteen kääntäminen saattaisi estää sähköverkon kykenemästä absorboimaan niin paljon lisävoimaa ja vaarantaa myös sähköjärjestelmät. Tallensin ne välimuistiin. Facebook on kouluttanut tällaisia tapahtumia, joten he tiesivät täydellisesti, mitä heidän pitäisi tehdä välttääkseen lisää ongelmia, jos tällainen maailmanlaajuinen onnettomuus sattuisi. Vaikka Facebook oli simuloinut monia palvelimiensa ja verkkojensa ongelmia ja kaatumisia, he eivät olleet koskaan ajatelleet selkärangan täydellistä putoamista, joten he ovat jo ilmoittaneet etsivänsä keinon simuloida tätä lähitulevaisuudessa estääkseen sen tulemisen takaisin. menee ohi ja korjaaminen kestää niin kauan.

Facebook on myös ilmoittanut, että oli erittäin mielenkiintoista nähdä, kuinka fyysiset turvatoimet luvattoman käytön estämiseksi saivat palvelimien käytön hidastumaan valtavasti heidän yrittäessään toipua tästä epäonnistumisesta maailmanlaajuisesti. Joka tapauksessa on parempi suojautua päivittäin tällaisilta ongelmilta ja toipua hieman hitaammin kuin rentoutua konesalien turvatoimenpiteissä.