Slåfejl lagde Amazons storage-servere ned

En fejlindtastning af en kommando under vedligeholdelse af Amazons S3-storagetjeneste førte til det omfattende nedbrud tidligere på ugen.

Det var en menneskelig fejl, som var den direkte årsag til det nedbrud, som tirsdag ramte en central del af Amazons sky og førte til problemer for stribevis af webtjenester, som er kunder hos Amazon. Det skriver Amazon i en opsummering af forløbet.

Amazons teknikere var i færd med at finde frem til, hvorfor billing-systemet til cloud storage-tjenesten S3, ikke kørte så hurtigt, som det burde. En af systemadministratorerne gik derfor i gang med at følge en foruddefineret playbook for at lukke en mindre gruppe servere ned, som håndterede billing-systemet.

Men da systemadministratoren skulle indtaste kommandoen, blev én af parametrene indtastet forkert. Derfor var det ikke kun nogle få servere, men en større gruppe af servere, som blev lukket ned.

Det drejede sig uheldigvis om servere, der stod for at håndtere to andre systemer, der understøtter S3-storagetjenesten. Det ene system holder styr på det index, som fortæller tjenesten, hvor alle storageobjekter ligger placeret, og det andet holder styr på allokeringen af storage til nye storageobjekter.

Dermed var S3 i hele den pågældende region, US-EAST-1, ude af stand til at læse, skrive, flytte eller slette objekter.

For at få storagesystemet til at fungere igen var det nødvendigt med en komplet genstart, og i mellemtiden var en række andre Amazon-cloud-tjenester, som benytter S3, også ude af drift i regionen, heriblandt Amazons block-storage, EBS, og Amazons Lambda.

Har ikke genstartet i årevis

Som storagetjeneste er der indbygget høj redundans og fejltolerance i Amazons S3, men det har også betydet, at Amazons teknikere ikke har haft behov for at udføre sådan en genstart af de understøttende systemer i årevis.

Det betød, at S3 nu er så stor, at det tog næsten fem timer, før systemerne var oppe igen og indekseringen fungerede normalt.

Amazon vil nu lave om på måden, hvorpå det er muligt at lukke ned for servere i systemet. Slåfejlen i kommandoindtastningen førte til, at et større antal servere blev lukket ned, så nu bliver administrationssystemet begrænset, så det ikke er muligt at lukke flere servere ned, end der stadig er en minimumskapacitet til at holde den basale funktionalitet kørende.

Samtidig bliver flere af systemerne splittet op i mindre tjenester, som hurtigere vil kunne genstartes, hvis der opstår problemer.

En del kunder undrede sig over, at Amazons eget dashboard for cloud-tjenesternes status ikke viste nogen problemer under nedbruddet. Det skyldtes ifølge Amazon, at dashboardet også benytter sig af S3 til lagring af statusmeddelelserne, og for den pågældende region lå de på regionens egen S3.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (2)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Jakob Dahl

Her sidder jeg tilbage og undrer mig over at man sidder og taster ting af så stor betydning i en prompt. At man ikke bruger scripts der er læst korrektur på først.

  • 1
  • 1
Albert Nielsen

Du er ved at lukke store dele af systemet. Er du sikker på, at det er, hvad du ønsker?

Selv OS i min PC spørger om jeg er sikker på, at jeg vil gennemføre Shutdown, eller slette noget permanent, osv. til trods for, at det har ubetydelige konsekvenser hvis jeg begår en fejl.

  • 0
  • 0
Log ind eller Opret konto for at kommentere