Ansat laver kæmpebrøler: Menneskelig fejl skyld i British Airways it-nedsmeltning

Selv ikke firmaets backup-systemer kunne redde dets datacenter fra den ansattes kæmpefejl.

En uafhængig undersøgelseskommission nedsat af British Airways har netop fundet ud af, hvorfor et enkelt it-nedbrud formåede at have så vidtrækkende konsekvenser, da det i sidste uge holdt selskabets fly på jorden i timevis og lammede alle selskabets systemer.

Læs også: Strømsvigt skabte totalt kaos for stort flyselskab: Havde ikke styr på backup-planerne

Indtil nu har der været en del spekulationer om, hvorfor British Airways var så længe om at få sine systemer op at køre igen efter det massive nedbrud,. Virkede backup-systemerne ikke? Var det et hackerangreb?

Nu viser det sig imidlertid, at de 75.000 strandede passager og det store hak i British Airways-brandet skyldes en medarbejder, der slukkede strømmen i et helt datacenter. Men ikke nok med det.

For bagefter tændte han strømmen igen.

Læs også: Fagforbund: It-outsourcing til Indien årsag til stort it-nedbrud hos British Airways

Og her bliver det ifølge theguardian rigtig grimt. For det laver uoprettelig skade på systemerne, der simpelthen brænder sammen.

»Personen, der slukkede for strømmen, havde adgang til bygningen, men ikke autorisation til at slukke for strømmen til den,« siger administrerende direktør for moderselskabet IAG til The Guardian og fortsætter;

»Mens jeg sagtens kan se, hvordan man ved en fejl kan slå strømmen fra, forstår jeg simpelthen ikke, hvordan man kan komme til at tænde den igen.«

Havde man ikke øjeblikkeligt tændt for strømmen igen, havde man kunnet genstarte systemerne i ro og mag, og man ville i løbet af få timer være tilbage i normal it-drift igen, fortæller han.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (12)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Anne-Marie Krogsbøll

"»Mens jeg sagtens kan se, hvordan man ved en fejl kan slå strømmen fra forstår jeg simpelthen ikke, hvordan man kan komme til at tænde den igen."

Hvis der er tale om eks. en rengøringsmedarbejder, som pludseligt bliver klar over at have slukket for det hele ved en fejl ("Den er godt nok fedtet, den overflade der - den må jeg straks pudse ihærdigt - ups"), så kan jeg da sagtens leve mig ind i, at næste paniske tanke kunne være "Jeg må straks tænde igen".

Jeg kan så undre mig over, hvilke sikkerhedsforanstaltninger - eller mangel på samme - som var tænkt til at forhindre, at uautoriserede kan komme til at slukke for strømmen. Og komme til tænde igen. Fejlede disse?

Og er det forsvarligt, hvis hele systemet er hængt op på en enkelt "power button"?

  • 33
  • 0
#3 Henrik Størner

Og er det forsvarligt, hvis hele systemet er hængt op på en enkelt "power button"?

Det er ret almindeligt, og så vidt jeg ved lovpligtigt, at have en "nødstop" knap i datacentre. Hvis en person er ved at blive ristet pga forkert tilslutning i et enkelt rack, er der ikke tid til at finde den rigtige afbryder på tavlen - så skal der bare slukkes NU. Derfor er der en hovedafbryder, som slukker alt.

Den kan så placeres mere eller mindre heldigt. Jeg kender selv til et tilfælde hos en større outsourcing leverandør, hvor nødstoppet sad ved siden af døren til serverrummet - og en stakkels rengørings-M/K tog fejl og trykkede på nødstoppet for at få åbnet døren. Man installerede efterfølgende en simpel plastic-bøjle hen over kontakten for at undgå en gentagelse.

Og ja - jeg kan også godt forstå panikken hos den stakkel, som trykkede på den forkerte knap, og den umiddelbare reaktion med at tænde igen. I den situation skal der meget træning til at for tænke rationelt over hvad der er den rigtige reaktion.

  • 28
  • 0
#4 Anne-Marie Krogsbøll

Tak for svar, Henrik Størner.

Mht. nødstop - ja, til en del af systemet. Men i så stor en organisation bør der så ikke være en form for opdeling af systemerne, med forskellige strømforsyninger? I det af dig nævnte tilfælde af en, der er ved at blive ristet - måske i en fjern afkrog af systemet - så er det vel netop heller ikke heldigt, hvis der kun er et system, hvor man måske skal rende temmelig langt for at nå til nødknappen (med mindre der er mange nødknapper til samme system)? Og det er vel i hvert fald slet ikke "sikkert", hvis man uden videre kan komme til at tænde igen - og måske komme til uforvarende at riste endnu flere?

Jeg gætter bare - det er ikke baseret på den fjerneste indsigt i, hvordan den slags skrues sammen - ud over hvad der har været skrevet her på V2. Men jeg synes bare, at AIG-direktøren retter sit fokus et lidt mærkeligt sted hen. Rent intuitivt synes jeg, at han måske forsøger at rette fokus mod en stakkels ansat - hvor der måske burde have været nogle sikkerhedsmekanismer af en eller anden art.

  • 5
  • 0
#5 Finn Aarup Nielsen

"skyldes en medarbejder" har jeg problemer med. Systemer designes af ingeniører der bør konstruere HCI sådan at fejlbetjeninger minimeres.

Jeg mindes en XKCD- eller Gary Larsen-tegning om problemstillingen. Det nærmeste jeg kommer er Gary Larson's "Fumbling for his recline button, Ted unwittingly instigates a disaster." Her vil man næppe beskylde Ted for fejlen, - men flyingeniøren.

  • 5
  • 0
#6 Jan Gundtofte-Bruun

Jeg kan så undre mig over, hvilke sikkerhedsforanstaltninger - eller mangel på samme - som var tænkt til at forhindre, at uautoriserede kan komme til at slukke for strømmen. Og komme til tænde igen.

I "gamle dage", da IBM var alt-dominerende, havde deres mainframes power-knapper som kun kunne slukkes. Kontakten gik nemlig mekanisk i baglås, så der skulle tilkaldes tekniker for at få maskinen (skilt ad, fikset, og) tændt igen. Netop for at undgå, at man "kommer til" at genstarte et system.

  • 7
  • 0
#7 Ditlev Petersen

I "gamle dage", da IBM var alt-dominerende, havde deres mainframes power-knapper som kun kunne slukkes.

Min vandvarmer har et lignende system på sin termosikring. Man skal lige have fat i en skruetrækker for at få tændt strømmen igen.

Hvorfor systemerne "brænder sammen" af at blive tændt, forstod jeg ikke. Skete det så hurtigt, at kondensatorer i strømforsyningerne ikke var afladet, så strømstødet løb over dem og sved elektronikken af? I så fald skulle man måske indbygge et eller andet mod dette. Man kan jo ofte smadre elektronik ved at tænde og slukke meget hurtigt et par gange. Det er altid sikrest at vente 10-15 sekunder. Men sådan tænker man ikke, når man i panik opdager, at man har pillet ved noget, man skulle have holdt fingrene fra.

  • 3
  • 0
#8 Simon Mikkelsen

Og ja - jeg kan også godt forstå panikken hos den stakkel, som trykkede på den forkerte knap, og den umiddelbare reaktion med at tænde igen. I den situation skal der meget træning til at for tænke rationelt over hvad der er den rigtige reaktion.

Når så meget går galt, kan fejlen ikke kun ligge hos én person. Som andre har nævnt, har systemet ikke forhindret at man tænder igen, efter et muligt nødstop.

Man kan også undre sig over at et så vigtigt system ikke har fail over til et andet datacenter. Har man et passende vigtigt system, er en meget relevant test at slukke for strømmen i et datacenter.

Der er også virkeligheden, hvor folk passende højt oppe har taget stilling og valgt at spare de mange penge det koster at gøre det helt rigtigt. Men så må de også betale omkostningen når deres sats ikke falder ud til deres fordel.

  • 9
  • 0
#9 Poul-Henning Kamp Blogger

Hvorfor systemerne "brænder sammen" af at blive tændt, forstod jeg ikke.

Hvis vi forudsætter at der ikke blev fysisk byttet om på ledninger, men at det gøres fra betjeningen i en eltavle:

  1. Forcer skift til UPS+Genset, f.eks ved at afbryde bystrømmen.

  2. Indkobel bystrøm igen via "extern bypass" til UPS'ens udgang[1]

  3. Boom!

Problemet er den faseforskel der instantant opstår imellem UPS+genset ødriften og bystrømmen.

Selv med ganske få graders forskel vil bystrømmens lave impedans destruere inverteren i UPSen.

Genset'et overlever formodentlig, fordi det kører sin egen ødrift på UPS'ens indgang[1].

Man kunne umiddelbart tro at spændingen ikke ville stige til mere end ca. det dobbelte af normalt, hvilket er slemt nok men ofte noget udstyr kan holde til i nogle sekunder, specielt hvis der er et par hundrede meter kabel til at virke som lavpas filter.

Men de "rigtige" lavpasfiltre i UPS'ens udgang har meget stor serieinduktion og derfor vil der i millisekunderne inden halvledere og sikringer i UPS'ens invertertrin destrueres opstå overspændinger i kV niveau.

Hvis man laver installationen ordentligt kan stort set alle disse problemer undgås.

Externe bypass afbrydere bør være af typen der kun mekanisk kan lukkes hvis der enten ikke er spænding på B-siden, eller samme spænding på A- og B- siden. Det er ikke noget stort og dyrt: Afbryderen skal have tre blokeringssolenoider og der skal bruges tre trepolede relæer.

Ligeledes bør der altid være massiv overspændingsbeskyttelse på indersiden af UPS'en, netop fordi stort set alle fejl der involverer inverteren giver overspændinger på udgangen.

[1] Hvis det er en extern bypass til UPS'ens genset indgang vil man smadre både genset og UPS, til gengæld burde UPSens inbyggede beskyttelse have forhindret overspænding på udgangen.

  • 5
  • 0
#10 Martin Zacho

Ingen 3-faset UPS i størrelse Datacenter vil have noget problem med phk's scenarie. De er designet til den type forudsigelig misbrug.

Så det er sansynligvis udstyr "down stream", som er gået i udu. Muligvis er der sprunget nogle sikringer, som ikke lige har været på lager.

Disclaimer: Jeg har ikke kendskab til BA's setup.

  • 5
  • 0
#11 Ole Laursen

Første svigt: Man sørger ikke for at få testet om systemet er redundant nok. Fra hvem der nu end har designet systemet og opefter er der et ansvar for at det er blevet taget hånd om. Det gælder i hvert fald op til it-chefen, men jeg synes faktisk også man kan argumentere for længere op, hvis datacenteret er kritisk for driften.

Nu er redundans en af de ting som nok er svært helt at få styr på med et enkelt datacenter fordi der er så mange enkeltstående ting der kan gå galt, hvorfor man jo når man når en vis størrelsesorden, typisk vil operere med to datacentre. Så har man reduceret problemet til at softwaren skal være uafhængig - hvad der vel også er svært nok i sig selv, men softwareproblemer er måske typisk lidt lettere at få hurtigt styr på igen.

Andet svigt: Når det uvægerligt går galt (Murphys lov), giver man den ansatte som har begået en fejl skylden i stedet for at påtage sig ansvaret for første svigt. Selvom vi ved at det er menneskeligt at fejle og derfor må designe systemerne ud fra det.

  • 1
  • 0
#12 Hans Nielsen

Det var ledelsen som have sparet store dele af de fastansatte tekniker væk, og outsource det meste af driften. Backup og pålidelige var ikke en del af bonussen. Noget lignende tilgangen i Mærsk.

Eller de har sikkert fået deres bonus. Om de "ansvarlige" efterfølgende er blevet fyret, sikkert ikke. De har jo kun lavet deres arbejde. Og det at tage en stor risiko på aktionærerne vejen for på den korte sigt, at spare og få lidt gode aktieoptioner. Her skal der jo ikke gerne danes president for at man skal miste sit job på det.

  • 0
  • 0
Log ind eller Opret konto for at kommentere