Slåfejl lagde Amazons storage-servere ned

3. marts 2017 kl. 09:432
Slåfejl lagde Amazons storage-servere ned
Illustration: Jesper Stein Sandal.
En fejlindtastning af en kommando under vedligeholdelse af Amazons S3-storagetjeneste førte til det omfattende nedbrud tidligere på ugen.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Det var en menneskelig fejl, som var den direkte årsag til det nedbrud, som tirsdag ramte en central del af Amazons sky og førte til problemer for stribevis af webtjenester, som er kunder hos Amazon. Det skriver Amazon i en opsummering af forløbet.

Amazons teknikere var i færd med at finde frem til, hvorfor billing-systemet til cloud storage-tjenesten S3, ikke kørte så hurtigt, som det burde. En af systemadministratorerne gik derfor i gang med at følge en foruddefineret playbook for at lukke en mindre gruppe servere ned, som håndterede billing-systemet.

Men da systemadministratoren skulle indtaste kommandoen, blev én af parametrene indtastet forkert. Derfor var det ikke kun nogle få servere, men en større gruppe af servere, som blev lukket ned.

Det drejede sig uheldigvis om servere, der stod for at håndtere to andre systemer, der understøtter S3-storagetjenesten. Det ene system holder styr på det index, som fortæller tjenesten, hvor alle storageobjekter ligger placeret, og det andet holder styr på allokeringen af storage til nye storageobjekter.

Artiklen fortsætter efter annoncen

Dermed var S3 i hele den pågældende region, US-EAST-1, ude af stand til at læse, skrive, flytte eller slette objekter.

For at få storagesystemet til at fungere igen var det nødvendigt med en komplet genstart, og i mellemtiden var en række andre Amazon-cloud-tjenester, som benytter S3, også ude af drift i regionen, heriblandt Amazons block-storage, EBS, og Amazons Lambda.

Har ikke genstartet i årevis

Som storagetjeneste er der indbygget høj redundans og fejltolerance i Amazons S3, men det har også betydet, at Amazons teknikere ikke har haft behov for at udføre sådan en genstart af de understøttende systemer i årevis.

Det betød, at S3 nu er så stor, at det tog næsten fem timer, før systemerne var oppe igen og indekseringen fungerede normalt.

Artiklen fortsætter efter annoncen

Amazon vil nu lave om på måden, hvorpå det er muligt at lukke ned for servere i systemet. Slåfejlen i kommandoindtastningen førte til, at et større antal servere blev lukket ned, så nu bliver administrationssystemet begrænset, så det ikke er muligt at lukke flere servere ned, end der stadig er en minimumskapacitet til at holde den basale funktionalitet kørende.

Samtidig bliver flere af systemerne splittet op i mindre tjenester, som hurtigere vil kunne genstartes, hvis der opstår problemer.

En del kunder undrede sig over, at Amazons eget dashboard for cloud-tjenesternes status ikke viste nogen problemer under nedbruddet. Det skyldtes ifølge Amazon, at dashboardet også benytter sig af S3 til lagring af statusmeddelelserne, og for den pågældende region lå de på regionens egen S3.

2 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
2
3. marts 2017 kl. 19:25

Du er ved at lukke store dele af systemet. Er du sikker på, at det er, hvad du ønsker?

Selv OS i min PC spørger om jeg er sikker på, at jeg vil gennemføre Shutdown, eller slette noget permanent, osv. til trods for, at det har ubetydelige konsekvenser hvis jeg begår en fejl.

1
3. marts 2017 kl. 13:37

Her sidder jeg tilbage og undrer mig over at man sidder og taster ting af så stor betydning i en prompt. At man ikke bruger scripts der er læst korrektur på først.