Globalt internet-nedbrud skyldtes programfejl, siger Fastly

9. juni 2021 kl. 10:299
Globalt internet-nedbrud skyldtes programfejl, siger Fastly
Illustration: Version2.
Kunde udløste fejl i CDN-firmas software, der fik store dele af nettet til at forsvinde for slutbrugerne.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Det var en fejl i software, udløst af en kundes indstillinger, der lå bag gårsdagens omfattende globale nedbrud for CDN-firmaet Fastly, også kendt som et edge-netværk.

CDN står for content delivery network, som er betegnelsen for fremskudte distribuerede servere, der leverer indhold til slutbrugerne. Nedbruddet blev opdaget tirsdag kl 11.58 dansk tid, og varede omkring en time.

En lang række store sites og medier blev trukket med i faldet, herunder Twitch, Reddit, Amazon, New York Times, den britiske regerings website, og TV 2 og Kristeligt Dagblad herhjemme.

»Vi oplevede en global afbrydelse på grund af en uopdaget softwarefejl, der dukkede op den 8. juni, da den blev udløst af en gyldig ændring af en kundes konfiguration,« skriver en teknisk chef i Fastly, Nick Rockwell, i et blogindlæg.

Artiklen fortsætter efter annoncen

»Selvom der var specifikke forhold, der udløste afbrydelsen, burde vi have forventet det.«

Nick Rockwell forklarer, at Fastly den 12. maj startede en softwareudrulning, der indeholdt en fejl, som kunne udløses af en bestemt kundekonfiguration under specifikke omstændigheder.

I begyndelsen af tirsdag foretog en kunde en gyldig konfigurationsændring, der udløste softwarefejlen. Det fik 85 procent af Fastlys netværk til at gå ned.

Firmaet foretog en midlertidig rettelse, og softwaren blev endeligt udbedret kl. 19.25 dansk tid.

Fastly vil nu undersøge, hvorfor firmaet ikke opdagede fejlen under softwarekvalitetssikring og testprocesser.

9 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
9
10. juni 2021 kl. 22:06

Hvis Fastly laver et vrøvlet opslag, kommer kundens Varnish til at returnere den fejl, vi ser i screenshottet.

Hvis du kigger rigtig godt efter vil du se at der faktisk ikke står "Guru meditation" men "Guru Mediation".

Det var en subtil lille rettelse en af Fastlys tidligste medarbejdere lavede, for at kunne se forskel på fejl fra deres og kunders Varnish instances.

Derfor ved vi at fejlen er lavet på Fastlys Varnish instance.

8
10. juni 2021 kl. 21:48

Der er ikke så mange gæt på, hvordan det realistisk set kunne lade sig gøre. Så jeg prøver lige.. overbyd mig gerne med en mere sandsynlig forklaring ?

Kundernes DNS peger på Fastlys infrastruktur, som deles mellem kunderne. Der er 2 lag af Varnish cache: Første lag hos Fastly peger på andet lag af cache hos kunden. Hvis Fastly laver et vrøvlet opslag, kommer kundens Varnish til at returnere den fejl, vi ser i screenshottet.

Fejlen i softwaren må have gjort, at der er kommet en forkert konfiguration ud på alle edge-serverne, som har fået cache-opslagene til at pege forkert.

Fastly laver cirka det samme som Cloudflare, ik? Det kan nemt være en fejl i hvordan edge-serverne behandler deres inputs til HTTP cachen (domæne, URL). De har monstro forskellige typer af omskrivnings-regler, man kan indstille på edge-serveren... sikkert også komplicerede regler med globs eller regex /*/**/[a-z] eller hvad det nu kunne være.. et fejl-kompileret URL-opslag, wildcard domæner osv. har måske gjort at alle opslag blev til den samme forkerte URL?

7
9. juni 2021 kl. 23:49

om milliarder til Cybersecurity and Infrastructure, så mange af snakkehovederne derovre var varmet op til at gengælde med en omgående krig mod Putin, der naturligvis er skurken bag også dette nedrige angreb...

Jeg er sikker på at du kan finde nogen. Men jeg fulgte med på både CNN og MSNBC og deres "eksperter" var ret hurtige til at sige at det nok blot var en fejl hos virksomheden.

Så din karakteristik af "snakkehovederne" savner lidt nuancer.

6
9. juni 2021 kl. 19:33

om milliarder til Cybersecurity and Infrastructure, så mange af snakkehovederne derovre var varmet op til at gengælde med en omgående krig mod Putin, der naturligvis er skurken bag også dette nedrige angreb...

5
9. juni 2021 kl. 19:09

Er det forøvrigt ikke Poul-Henning Kamp som også skriver her...

4
9. juni 2021 kl. 15:47

Ægene i kurven - ja, her så vi nok igen DJØFernes magtovertagelse. En kvik økonom havde regnet ud, at "stort er godt", så alle ægene - også naboernes - var puttet i een kurv.

Og klask, så lå de der - altså alle web-siderne i en stor 0-bunke = DOWN.

Som jeg læste det, så galdt det ikke DR, og det er jo godt, men TV2 for eksempel.

Men at store, væsentlige, nyhedssites går ned, alle på een gamg, ja DET er for meget.

Jeg HÅBER de deler ægene i flere kurve - på trods af økonomien.

3
9. juni 2021 kl. 14:21

Gad vide hvordan sagen her udvikler sig de kommende par dage?

I går fyldte den samtlige mediers forsider (foruden naturligvis TV2 selv) og i dag synes sagen nærmest at være forduftet (foruden naturligvis V2)

Ikke desto mindre, blev det i går påpeget som en af de største sikkerhedstrusler overhovedet, altså det faktum at vi har placeret alt for mange æg i samme kurv - og det endda på intenrationalplan. Det blev sammenlignet med ét af menneskeligehedens 'stolteste' bedrifter, nemlig Titanic; men her kunne man også have peget på et hvert andet babelstårn.

Hvis ondsindet folk (ofte betegnet som hackere) får adgang og dermed mulighed for at afpresse disse store leverandører af enten proxy- eller CDN-løsninger, vil det potentielt resultere i, at samtlige store websites går ned, alt fra Reddit til Det hvide hus's hjemmeside, ja selv danske.

Er det fremtiden? Ligesom man i et AI-scenarie kan forvente at el-biler kan redde os fra de mange daglige uheld på motorvejen, men samtidig resultere i enorme globale katestrofer på én gang, når tekniskefejl (formodentligt) en sjælden gang imellem indtræffer.

1
9. juni 2021 kl. 10:50

Måske vigtigere end hvorfor de ikke opdagede fejlen:

Hvad i alverden er det for en opsætning de har hvor en konfiguration hos en af deres kunder kan have nogen som helst effekt på hele systemet?