La caduta di Facebook in tutto il mondo che si è verificato lunedì è stato un prima e un dopo nell'azienda, ed è che sono stati completamente disconnessi da Internet per più di 5 ore, qualcosa senza precedenti per una delle più grandi aziende del mondo. Ora che la piattaforma Facebook, WhatsApp ed Instagram hanno recuperato il 100% dall'incidente verificatosi lunedì, il team di Facebook ha pubblicato dettagli su come si è verificato l'incidente, perché è successo e anche come sono riusciti a risolverlo. Vuoi conoscere tutti i dettagli sul più grande incidente nella storia di Facebook finora?
Come funziona Facebook e perché si è verificata la sua caduta totale?
Facebook ha indicato che l'interruzione totale del servizio in tutto il mondo è stata dovuta a un guasto del sistema che gestisce la capacità del backbone dell'azienda, questo backbone è il "backbone" della rete Facebook, per connettere tutti i data center che Facebook ha diffuso tutti nel mondo, che consistono in migliaia di server e centinaia di chilometri di fibra ottica, poiché collegano anche i suoi data center con cavi sottomarini. Alcuni data center di Facebook hanno milioni di server che archiviano i dati e hanno un carico computazionale elevato, ma in altri casi le strutture sono più piccole e sono responsabili della connessione della dorsale a Internet in generale affinché le persone utilizzino le loro piattaforme.
Quando un qualsiasi utente come noi si connette a Facebook o Instagram, la richiesta di dati viaggia dal nostro dispositivo alla struttura geograficamente più vicina, per poi comunicare direttamente con la dorsale per accedere ai data center più grandi, è qui che recupera le informazioni richieste ed è elaborato, per consentirci di vederlo sullo smartphone.
Tutto il traffico dati tra i diversi data center è gestito da router, che determinano dove devono essere inviati i dati in entrata e in uscita. Come parte del loro lavoro quotidiano, il team di ingegneri di Facebook deve mantenere questa infrastruttura ed eseguire attività come l'aggiornamento dei router, la riparazione delle linee in fibra o l'aggiunta di più capacità su determinate reti. Questo è stato il problema con il crash globale di Facebook lunedì.
Durante i lavori di manutenzione, è stato inviato un comando con l'intenzione di valutare la disponibilità della capacità del backbone globale, ma ha accidentalmente interrotto tutte le connessioni del backbone, disconnettendo tutti i data center di Facebook a livello globale. Generalmente, Facebook utilizza sistemi per controllare questi tipi di comandi e mitigare o evitare errori come questo, ma un errore (bug) in questo strumento di controllo e modifica ha impedito l'interruzione dell'esecuzione dell'ordine e quindi tutto è andato in pezzi.
Cosa è successo su Facebook quando ho eseguito il comando?
Non appena il comando è stato eseguito, ha causato la disconnessione totale delle connessioni Internet e del data center, ovvero non abbiamo potuto accedere a nessuno dei servizi di Facebook perché non erano più visibili su Internet. Inoltre, questa disconnessione totale ha causato un secondo guasto catastrofico nel sistema, più specificamente nel DNS. Uno dei compiti che svolgono le installazioni di data center più piccoli è rispondere alle query DNS, queste query ricevono risposta da server dei nomi autorevoli che hanno indirizzi IP noti e che sono pubblicizzati nel resto di Internet utilizzando il protocollo BGP.
Per garantire un funzionamento più affidabile, Facebook fa in modo che i server DNS disattivino quegli annunci BGP se non possono comunicare con i data center di Facebook stessi, perché ciò indica che la connessione di rete non funziona correttamente. Con l'interruzione totale della dorsale, ciò che questi server DNS hanno fatto è stato rimuovere gli annunci BGP. Il risultato è che i server DNS di Facebook sono diventati irraggiungibili anche se funzionavano perfettamente, per questo motivo il resto del mondo non poteva accedere ai servizi di Facebook.
Logicamente l'intero processo è avvenuto in pochi secondi, mentre gli ingegneri di Facebook hanno cercato di capire cosa stava succedendo e perché, hanno dovuto affrontare due problemi critici:
- Non è stato possibile accedere normalmente ai data center, perché le reti erano totalmente interrotte dal primo problema.
- Il crash del DNS ha rotto molti strumenti interni comunemente usati per indagare e risolvere problemi di questo tipo.
L'accesso alla rete principale e alla rete fuori banda non funzionava, non funzionava nulla, quindi hanno dovuto inviare fisicamente un team di persone al data center per risolvere il problema e riavviare il sistema. Questo ha richiesto molto tempo perché la sicurezza fisica in questi centri è massima, infatti, come confermato da Facebook, è persino difficile per loro accedervi fisicamente per apportare modifiche, al fine di evitare o mitigare possibili attacchi fisici alla loro rete. Ciò ha richiesto molto tempo prima che fossero in grado di autenticarsi nel sistema e vedere cosa stava succedendo.
Tornare in vita… ma piano piano per non buttare via tutto il sistema
Una volta ripristinata la connettività del backbone nelle diverse regioni dei data center di Facebook, tutto è tornato a funzionare correttamente, ma non per gli utenti. Per evitare un collasso dei loro sistemi dovuto all'enorme numero di utenti che volevano entrare, hanno dovuto attivare i servizi poco a poco, per evitare di creare nuovi problemi dovuti all'aumento esponenziale del traffico.
Uno dei problemi è che i singoli data center utilizzavano pochissima energia elettrica, invertire improvvisamente tutto il traffico potrebbe rendere la rete elettrica incapace di assorbire così tanta potenza aggiuntiva e potrebbe mettere a rischio anche i sistemi elettrici. Li ho memorizzati nella cache. Facebook si è allenato per questo tipo di eventi, quindi sapevano perfettamente cosa avrebbero dovuto fare per evitare ulteriori problemi in caso di un crash globale come quello che è successo. Sebbene Facebook avesse simulato molti problemi e crash dei propri server e delle proprie reti, non aveva mai considerato un calo totale della dorsale, quindi hanno già dichiarato che cercheranno un modo per simularlo in un futuro molto prossimo per evitare che accada Indietro. passare e ci vuole così tanto tempo per risolvere.
Facebook ha anche indicato che è stato molto interessante vedere come le misure di sicurezza fisica per impedire l'accesso non autorizzato abbiano rallentato enormemente l'accesso ai server mentre cercavano di riprendersi da questo errore a livello globale. In ogni caso, è meglio proteggersi quotidianamente da questo tipo di problemi e avere un recupero un po' più lento, piuttosto che allentare le misure di sicurezza dei data center.