Derfor bragede NemLog-in ned trods failover: Host forsøgte at bruge forkert storage
Tårnhøje temperaturer, kollapsede komponenter og et alarmsystem, der overså advarsler.
Det er forklaringen på, at et stykke kritisk it-infrastruktur kunne gå i sort i over halvanden time, på trods af at systemet var udstyret med et sikkerhedsnet, der netop skulle forhindre nedbrud.
Det viser en intern rapport, betegnet 'fortroligt', fra it-virksomheden NNIT. Rapporten beskriver, hvad det var, der gik galt søndag den 30. juni, da Digitaliseringsstyrelsens offentlige login-portal NemLog-in brød sammen, selvom den var sikret med en failover-løsning.
Version2 har fået aktindsigt i rapporten, hvor det fremgår, at en aktiv, men utilgængelig storage-løsning bevirkede, at failover ikke fungerede korrekt.
NemLog-in er en del af den offentlige digitale infrastruktur og Digitaliseringsstyrelsen betegner systemet som samfundskritisk infrastruktur. Systemet skal blandt andet sikre, at borgere og medarbejdere har adgang til alle offentlige myndigheders web-løsninger med ét enkelt login. Det er NNIT, der står for driften af Digitaliseringsstyrelsens NemLog-in-system. Kilde: Digitaliseringsstyrelsen.Om NemLog-in
Forspillet
Forud for NemLog-ins nedbrud den varme juniaften havde der udspillet sig en kæde af begivenheder, der resulterede i, at den offentlige digitaliseringsløsning crashede, selvom løsningen på papiret burde være sikret med en failover-løsning.
NNIT står for driften af NemLog-in, og til det formål benytter it-virksomheden sig af et datacenter i Ballerup, som er ejet af datacentervirksomheden Interxion.
Om eftermiddagen denne sommersøndag eksploderede en defekt slange i køleanlægget hos Interxions datacenter. Vandet fossede ud af anlægget, der i alt rummede 100 kubikmeter vand, og kølesystemet blev sat ud af drift.
Det førte til, at temperaturerne steg markant i datacentret. I stedet for den normale temperatur på mellem 18 og 27 grader celsius blev der nogle steder målt temperaturer på over 40 grader.
En væsentlig del af datacentrets kunder og deres kritiske it-systemer gik i sort på grund af varmen.
Men hos Digitaliseringsstyrelsen havde man ikke forventet, at varmekollapset i datacentret ville få betydning for NemLog-in. Styrelsen havde nemlig aftalt med leverandøren NNIT, at det kritiske it-system skulle beskyttes af en automatisk failover-løsning.
Det vil sige, at driften af NemLog-in lynhurtigt ville skifte til et andet datacenter end Interxions i Ballerup, hvis der skulle opstå problemer.
Men de høje temperaturer satte også en stopper for, at den automatiske failover på NemLog-in gik i gang.
»Den meget høje temperatur medførte, at NemLog-in3’s (den seneste udgave af NemLog-in, red.) automatiske failover-løsning ikke blev aktiveret,« skriver NNIT i den fortrolige rapport.
Failover fejlede
I NemLog-ins driftsmiljø er alle serverne virtuelle, og de er placeret på fysiske hosts, der er sat op i cluster, som er spejlet mellem Interxions datacenter i Ballerup og et sekundært datacenter. De hosts har forbindelse til storageløsninger via fire SAN-switche.
Hverken host eller storage, der var placeret i Interxions datacenter, gik til at starte med ned på grund af varmen.
Derimod blev fire såkaldte transceivere påvirket af de høje temperaturer. Transceiverne sidder i hver deres SAN-switch, og de udgør en del af forbindelsen mellem host og storage.
De varme temperaturer førte til, at transceiverne i SAN-switchene fejlede, og derfor blev forbindelsen mellem host og storage i det overophedede datacenter afbrudt.
Host-løsningen Interxion registrerede, at der ikke var forbindelse til storage, og dette forårsagede en failover-proces, som førte til, at hosten på det sekundære datacenter blev aktiveret.
Men fordi den primære storage hos Interxions stadig var aktiveret, blev storage i det sekundære datacenter ikke aktiveret. Det bevirkede, at den nyaktiverede host i det sekundære datacenter forgæves forsøgte at få forbindelse via de varmeramte SAN-switche til den stadig aktive storage hos Interxion.
Og da forbindelsen mellem hosten i det sekundære datacenter og storage i primære datacenter gik via de kollapsede transceivere, var der altså ikke hul igennem til storage.
Først da temperaturerne faldt igen hos Interxion, og transceiverne begyndte at fungere igen, kom adgangen til den offentlige del af det digitale Danmark atter på benene.
Hændelsen den lune søndagsaften den 30. juni betød, at NemLog-in var nede i over halvanden time. Ifølge den fortrolige rapport fra NNIT startede nedbruddet klokken 22.23 og sluttede klokken 23.05.
Storage kan ikke tjekke forbindelsen
Version2 har været i løbende kontakt med NNIT's pressekontakt omkring sagen. NNIT er blevet forelagt Version2 beskrivelse af forløbet, som it-virksomheden efterfølgende har bekræftet.
I et mailsvar til Version2 erkender NNIT, at det manglende skift fra den primære til den sekundære storage har haft stor betydning for nedbruddet af det kritiske it-system NemLog-in.
Hvis storage-systemet i det sekundære datacenter havde sat ind i failoveren, hvor lang tid havde man da kunne risikere?
»Ingen, idet teknikken under normale omstændigheder ville have foretaget failover,« skriver NNITs pressekontakt i en mail til Version2.
Version2 har også spurgt, hvorfor den primære storage i Interxions varme datacenter ikke registrerede og meddelte, at al forbindelse til den var røget på grund af de svigtende transceivere, og at der derfor var behov for at aktivere den sekundære storage i det andet datacenter.
»Grundet protokollen har storage som udgangspunkt ikke mulighed for at verificere forbindelse opad i stakken, hvorimod hosts har mulighed for at verificere, om der kommer svar på forespørgsler, der sendes ned mod storage,« skriver NNIT's pressekontakt i mailen.
Kan ske igen
It-virksomheden forklarer videre, at man i kølvandet på hændelsen har »defineret en række præventive aktioner«, som vil blive drøftet med Digitaliseringsstyrelsen, der er kunden.
Men selvom de nye sikkerhedsforanstaltninger bliver sat i værk, vil de »præventive aktioner« ikke endegyldigt forhindre, at en lignende situation opstår en anden gang.
»En risiko for gentagelse er til stede, men må anses for betydelig reduceret ved effektuering af de præventive aktioner,« står der i rapporten.
Version2 har efterfølgende spurgt, hvorfor protokollen forhindrer, at storage har mulighed for at verificere forbindelsen. Derudover har vi spurgt, hvor mange systemer der i øjeblikket kører med en identisk failover-opsætning hos NNIT, samt hvilke »præventive aktioner« man helt konkret har fundet frem til for at forhindre, at der sker lignende hændelser i fremtiden.
NNIT er ikke vendt tilbage med svar inden redaktionens deadline.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.