Facebooks BGP-maveplasker skabte ringe i hele verdens internet
Facebook skabte røre i BGP-andedammen, da konglomeratet med en fejlagtig opdatering praktisk talt fik fjernet sine egne tjenester Facebook, Messenger og Whatsapp fra internettet.
Ingen vidste i flere timer, hvor på nettet, tjenesterne kunne findes, og det forhindrede ironisk nok Facebook i at opdatere systemet på ny og rette op på fejlen.
Teknisk set låste Facebook sig selv ude - og de kunne ligesom resten af verden ikke finde hoveddøren. De folk, der vidste, hvordan problemet skulle fikses kunne ikke tilgå serverne, der efter sigende geografisk set stod et andet sted end teknikerne.
BGP-protokollen bygger i udgangspunktet på, at man som aktør på nettet stoler på det, andre melder ud. BGP forsøger altid at definere den korteste vej for en given datapakke. Når en stor del af netværket pludselig forsvinder, øger det presset på den tilbageværende infrastruktur, der både skal behandle flere forespørgsler og prøve at finde de 'forsvundne' slutpunkter.BGP
Påvirkede alle andre - og Google
Forestil dig at alle veje til København forsvandt midt i myldretiden. Interessen for at finde nye veje til hovedstaden ville være enorm, og den samme interesse oplevede alle dem, hvis DNS-servere stadig var online på egen krop.
Googles DNS-server, 8.8.8.8, oplevede fra det ene øjeblik til det andet svartider der nærmede sig ti gange det normale niveau omkring 30-40 millisekunder.
#GoogleDNS 8.8.8.8 becomes much slower because of #Facebookdown and all the client retries. pic.twitter.com/4aTyFAykMq
— awlnx (@awlnx) October 4, 2021
»Det er utroligt at én aktør kan påvirke alle andre på nettet så meget. Det kan godt være, at det er noget, vi der arbejder med netværk er nødt til at kigge på, når vi ved, præcis hvad der er sket,« siger Henrik Kramselund Jereminsen, der driver konsulentforretningen Zencurity.
Også adblocker-selskabet Adguard blev påvirket. Her fortæller en af folkene bag virksomheden hvorfor og hvordan nedbruddet påvirkede dem:
We just had a serious outage of @AdGuard DNS, but it was actually caused by @Facebook. What happened and how on earth @AdGuard may depend on FB? Let me try to explain. (1/9)
— Andrey Meshkov (@ay_meshkov) October 4, 2021
Danske Teleselskaber ramt af dønninger
Ser man på siden downdetector.com, der baseret på indberetninger overvåger driftsstabiliteten på alverdens tjenester, tegner der sig et tydeligt billede. Næsten alle tjenester får ifølge tjenesten problemer fra det øjeblik, Facebook bøffer i deres BGP-opsætning og fjerner sig selv fra vores digitale verdenskort.
Det gælder også de danske tele- og internetoperatører, som Version2 har rakt ud til. Og selvom det ikke umiddelbart har ført til større driftsforstyrrelser, tændte hændelsen en advarselslampe hos Telia, der er den eneste af udbyderne, der er vendt tilbage inden Version2’s deadline.
»Vores kontrolcenter har registreret en DNS-relateret forstyrrelse, der dog ikke har haft indvirkning på den generelle brugeroplevelser/hastighed etc. Enkelte kan have oplevet en anelse forringet performance i form af lidt længere svartider,« skriver teleselskabet i en mail til Version2.
Dette kan være blevet yderligere forstærket af ‘flere brugeres gentagne, forgæves forsøg på at tilgå Facebook,’ uddyber Telia.
Interessant nok faldt den øvrige trafik i udbyderens netværk i perioden:
»Sammenlignet med sidste mandag oplevede vi i går en generel nedgang i trafikken for så vidt angår både data, tale og sms.«
Facebooks automatiserede BGP
Det er velkendt, at Facebook automatiserer selskabets implementering af BGP-opdateringer. Selskabet fortalte selv om dette på en Usenix-konference:
»We also describe our in-house BGP software implementation, and its testing and deployment pipelines. These allow us to treat BGP like any other software component, enabling fast incremental updates. Finally, we share our operational experience in running BGP and specifically shed light on critical incidents over two years across our data center fleet. We describe how those influenced our current and ongoing routing design and operation.«
Kort fortalt at Facebook automatiserer BGP-opdateringer som det også er tilfældet for store dele af selskabets øvrige kodebase.
Henrik Kramselund Jereminsenfortæller, at denne form for automatisering er nødvendig, men også at det kan gå grueligt galt, hvis uheldet er ude.
»Laver man en fejl, bliver den pumpet gennem systemet i realtid,« siger Henrik Kramselund Jereminsen. For at undgå det, har han altid en vej ind til sine services, han ikke bruger til andet end recoveries, og som ikke rammes af denne slags fejl.
Måtte Facebook bryde ind i egne servere?
Rygterne lyder, at Facebook fysisk måtte tiltvinge sig adgang til serverens egne servere - for DNS-mæssigt var de ikke på nettet.
Lmao. Friend at Facebook confirmed they ended up bringing in a guy with an angle grinder to get access to the server cage
— Cullen (@cullend) October 4, 2021
Hvad enten det er sandt eller ej skriver Facebook selv, at de først får løst problemet, da et hold Facebook-ansatte får fysisk adgang til deres datacenter i Santa Clara.
Hele sagen tydeliggør, hvor centraliseret internettet er ved at blive og at det kan have vidtrækkende konsekvenser, hvis nogle af dets bredere skuldre pludselig ikke løfter i nogen tid. Eller som New York Times skrev: Facebook’s apps gik ned. Og verden så, hvor meget der drives af dem.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.