Det var en menneskelig fejl, som var den direkte årsag til det nedbrud, som tirsdag ramte en central del af Amazons sky og førte til problemer for stribevis af webtjenester, som er kunder hos Amazon. Det skriver Amazon i en opsummering af forløbet.
Amazons teknikere var i færd med at finde frem til, hvorfor billing-systemet til cloud storage-tjenesten S3, ikke kørte så hurtigt, som det burde. En af systemadministratorerne gik derfor i gang med at følge en foruddefineret playbook for at lukke en mindre gruppe servere ned, som håndterede billing-systemet.
Men da systemadministratoren skulle indtaste kommandoen, blev én af parametrene indtastet forkert. Derfor var det ikke kun nogle få servere, men en større gruppe af servere, som blev lukket ned.
Det drejede sig uheldigvis om servere, der stod for at håndtere to andre systemer, der understøtter S3-storagetjenesten. Det ene system holder styr på det index, som fortæller tjenesten, hvor alle storageobjekter ligger placeret, og det andet holder styr på allokeringen af storage til nye storageobjekter.
Dermed var S3 i hele den pågældende region, US-EAST-1, ude af stand til at læse, skrive, flytte eller slette objekter.
For at få storagesystemet til at fungere igen var det nødvendigt med en komplet genstart, og i mellemtiden var en række andre Amazon-cloud-tjenester, som benytter S3, også ude af drift i regionen, heriblandt Amazons block-storage, EBS, og Amazons Lambda.
Har ikke genstartet i årevis
Som storagetjeneste er der indbygget høj redundans og fejltolerance i Amazons S3, men det har også betydet, at Amazons teknikere ikke har haft behov for at udføre sådan en genstart af de understøttende systemer i årevis.
Det betød, at S3 nu er så stor, at det tog næsten fem timer, før systemerne var oppe igen og indekseringen fungerede normalt.
Amazon vil nu lave om på måden, hvorpå det er muligt at lukke ned for servere i systemet. Slåfejlen i kommandoindtastningen førte til, at et større antal servere blev lukket ned, så nu bliver administrationssystemet begrænset, så det ikke er muligt at lukke flere servere ned, end der stadig er en minimumskapacitet til at holde den basale funktionalitet kørende.
Samtidig bliver flere af systemerne splittet op i mindre tjenester, som hurtigere vil kunne genstartes, hvis der opstår problemer.
En del kunder undrede sig over, at Amazons eget dashboard for cloud-tjenesternes status ikke viste nogen problemer under nedbruddet. Det skyldtes ifølge Amazon, at dashboardet også benytter sig af S3 til lagring af statusmeddelelserne, og for den pågældende region lå de på regionens egen S3.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.