DSB-nedbrud: NNIT var midt i oppetids-certificering, da fejl sendte datacenteret i sort
Trods flere redundante nødstrømsløsninger blev NNIT's datacenter 26. april klokken 14.40 ramt af et større strømsvigt, der sendte serverne i sort. Nedbruddet bevirkede blandt andet, at hjemmesider, apps og billetautomater hos DSB - der er kunde hos NNIT - bragede ned.
Men hvordan kan det være, at diverse backup-strømkilder fejlede i forhold til at holde datacenteret i luften?
Det forklarer vice president i NNIT Hans-Henrik Langsted. Virksomheden var op til nedbruddet midt i en datacenter-certificeringsproces hos Uptime Institute i forhold til netop at kunne håndtere sådan noget som strømnedbrud.
»I den proces kører vi over nogle dage med forskellige slags demonstrationer. Vi er faktisk 90 procent henne i demonstrationen om onsdagen, hvor vi skal lave et scenarie, hvor vi tager en generator ud for at lave maintenance, og så skal bystrømmen falde bort,« siger han.
Strømforsyningen I NNIT's datacenter er indrettet med tre individuelle kredsløb, A, B og C. Hvert kredsløb er udgjort af en bylinje med strøm fra elnettet, en generator og en UPS (uninterruptible power supply).
I udgangspunktet fungerer det sådan, at hvis bystrømmen forsvinder, så bliver der sendt en besked til generatoren om at starte op og overtage strømleverancen, og mens det sker, sørger batterier via UPS’en for at levere strøm, så der ikke kommer nogen udfald i datacenteret.
Læs også: Se galleri over indmaden i NNITs datacenter
Certificerings-processen
I forbindelse med certificeringsprocessen skulle NNIT teste et scenarie, hvor en generator er taget ud til vedligehold, og hvor et af kredsløbene i den forbindelse bliver koblet ud. Det er i udgangspunktet helt fint, fordi datacenteret kan køre på de to resterende kredsløb.
»Det er faktisk meget normalt; det er ikke noget ekstremt scenarie på nogen måde. Det er en helt normal vedligeholdelsesdemonstration, vi skal vise her,« siger Hans-Henrik Langsted.
Han fortæller, at det sker flere gange om året, at et kredsløb på den måde bliver koblet ud af systemet i forhold til vedligehold af en generator.
Da NNIT i forbindelse med demonstrationen kobler det ene kredsløb (A) ud for at simulere vedligehold, så bliver der også slukket for bystrømmen til de to øvrige kredsløb B og C. Det sker for at simulere en situation, hvor bystrømmen forsvinder, mens en generator er taget ud til vedligehold.
Det burde der som sådan ikke være noget problem med, da der jo både er batterier og generatorer til at sikre strømmen i de to resterende kredsløb.
Når bystrømmen forsvinder fra de to øvrige kredsløb (B og C), er det således meningen, at UPS'erne skal tage over og levere uafbrudt strøm med deres batteribanker, indtil generatorerne i kredsløbene kommer op at køre.
Her hører det med til historien, at NNIT har opgraderet sine datacenter-UPS'er for nyligt. I den forbindelse er UPS’en i kredsløb C ikke blevet ordentligt implementeret. Og det bevirker, at generatoren i kredsløb c aldrig kommer op at køre.
Det er i sig selv ikke et problem, fordi der burde være strøm nok i batteribanken i kredsløb C til at holde systemet kørende, til NNIT’s teknikere kan få koblet bystrømmen ind i kredsløbet igen. Det er der imidlertid ikke.
Normalt er det meningen, at batterierne i systemet skal lades op for fuld kraft, når bystrømmen er koblet til i systemet. Men som følge af en konfigurationsfejl er batterierne kun blevet opladet med 25 pct. af den strømtilførsel, det var meningen, det skulle foregå med. Og derfor er der ikke meget strøm tilbage i batterierne, der er blevet brugt i forbindelse med de foregående dages certificeringsproces.
Så da generatoren i C fejler, kan batterierne ikke holde kredsløbet kørende i lang nok tid til, at teknikerne når at koble bystrømmen til.
Tilbage er B-kredsløbet, hvor generatoren godt nok kommer op at køre, men det går hurtigt galt, da det ikke er meningen, at kredsløbet skal trække hele datacenteret uden et af de andre kredsløb. Og desuden er der heller ikke her tilstrækkeligt med strøm på batteriet, der ligesom i C-kredsløbet ikke er blevet ordentligt opladet.
Og så går strømmen i datacenteret.
»En opringning, som jeg sent vil glemme«
På det tidspunkt, 14:40 den 26. april, befinder han sig i NNIT's hovedkvarter i Søborg.
»Jeg står i vores hovedkontor og får en opringning, som jeg sent vil glemme,« siger Hans-Henrik Langsted.
»Jeg får at vide, at 1P er tabt. Det er vores datacenter.«
Herefter kører han med det samme ud til datacenteret, hvor en datacenter manager sammen med diverse teknikere er i gang med at få strømmen genetableret i det mørklagte center. Det foregår ved at genetablere bystrømmen, men det er mere kompliceret end bare at trykke på en knap, da tingene skal starte op i en bestemt rækkefølge, forklarer Hans-Henrik Langsted.
Strømmen bliver genetableret inden for en time. Men det tager længere tid at få alle systemer som storage og netværk op at køre, da disse systemer også skal startes i en bestemt rækkefølge.
Ved midnat er 80 pct. af systemerne oppe igen, og 95 pct. af systemerne er oppe dagen efter nedbruddet. Fredag kommer de sidste systemer hos en enkelt kunde tilbage til normal drift.
»Det er en ret kompliceret real-life disaster-øvelse,« som Hans-Henrik Langsted udtrykker det.
Som nogle vil vide, så kan hardware og data lide overlast, hvis strømmen pludselig forsvinder. Men ifølge Hans-Henrik Langsted har skaderne, hvad det angår, begrænset sig til enkelte diske i et storagesystem.
»Vi udskiftede, jeg tror, under en håndfuld hardware-ting,« siger han.
Hvad gør I for at sikre for, at sådan noget her ikke gentager sig?
»Der er altid noget at lære. Det er der også i forhold til vores kontrol og vores processer. Dem kommer vi til at kigge meget nøje igennem,« siger Hans-Henrik Langsted.
Han kalder episoden for et hul i kvaliteten.
»Det er jo en mavepuster til vores kunder - vi skal forsikre dem om, at vi kan det her. Det gør man jo kun ved at vise, at vi nu kan køre det stabilt. Vi har jo en kæmpe opgave i forhold til vores kunder,« siger Hans-Henrik Langsted.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.