Trods failover: Digitaliseringsstyrelsens systemer nede i timevis efter varmekollaps i datacenter
Det ramte den danske it-infrastruktur bredt, da et datacenter i Ballerup ejet af virksomheden Interxion brød sammen sidste søndag. DSB blev påvirket, de danske medier blev påvirket, og kritiske it-løsninger i det offentlige blev påvirket.
Blandt de ramte systemer var Digitaliseringsstyrelsens NemLog-in, som er en del af den offentlige digitale infrastruktur. NemLog-in skal blandt andet sikre, at borgere og medarbejdere har adgang til alle offentlige myndigheders web-løsninger med ét enkelt login.
Driften af det kritiske it-system står NNIT for. NemLog-in er sat op med en såkaldt failover-løsning. Det betyder, at NNIT har to redundante driftsmiljøer til NemLog-in, som er placeret i to forskellige datacentre.
I tilfælde af problemer i et af datacentrene, skal failover-proceduren sikre, at NemLog-in kan køre videre i det andet. Men da det ene datacenter – Interxions datacenter i Ballerup – gik ned som følge af et svigtende køleanlæg og en eksplosion af en defekt køle-slange, bragede NemLog-in alligevel ned.
Det forklarer Adam Lebech, der er vicedirektør ved Digitaliseringsstyrelsen, i en mail til Version2.
»NemLog-ins driftsmiljø består af redundante miljøer, altså dublerede eller spejlede miljøer, i to forskellige datacentre med geografisk uafhængige lokationer. Det gør, at driften kan fortsætte i tilfælde af nedbrud, og at såkaldte ’single point failures’ dermed undgås. Brugerne af NemLog-in oplevede dog alligevel i søndags (den 30. juni 2019, red.), at NemLog-in var utilgængelig i et tidsrum,« skriver han i mailen. Flere offentlige myndigheder benytter sig af NemLog-in – herunder Skattestyrelsen, som på Twitter gjorde opmærksom på, at der var problemer med systemet samtidig med nedbruddet datacentret
Afventer beskrivelse fra NNIT
Trods failover-processen medførte varme-kollapset i Ballerup-datacentret, at NemLog-in gik ned i over en halvanden time. Den foreløbige registrerede nedetid fra hændelsen sidste søndag viser ifølge Digitaliseringsstyrelsen, at systemet var utilgængeligt i perioden fra omkring 20:23 til 22:05.
Det er stadig uklart for Digitaliseringsstyrelsen, hvad der gjorde, at det kritiske it-system blev lagt ned af Interxions nedbrud, når nu trafikken på NemLog-in burde have kørt videre på et andet datacenter. Styrelsen venter derfor på en forklaring fra NNIT, som står for driften af systemet.
»Digitaliseringsstyrelsen afventer fortsat en beskrivelse (root cause analysis) fra NNIT af, hvorfor NemLog-in i dette tidsrum ikke var tilgængeligt,« skriver Adam Lebech i mailen til Version2. DSB gjorde også opmærksom på, at der var problemer med deres salgssystemer samtidig med nedbruddet i datacentret
»Failover kan inkludere en nedetid«
NemLog-in var ikke det eneste system, som NNIT drifter, og som trods failover-opsætning blev slået omkuld i forbindelse med Interxions nedbrud.
Et andet system hos Digitaliseringsstyrelsen, kaldet eID, var nede i to timer, og hos DSB var der problemer med salgssystemerne, som NNIT også står for driften af. Både DSB's systemer og eID kører med failover hos NNIT.
Version2 har kontaktet NNIT for at opklare, hvorfor flere it-systemer – trods en tilsyneladende failover-løsning – alligevel har været nede.
I et skriftligt svar til Version2 oplyser NNIT, at virksomheden i forskellig grad benytter sig af failover-systemer til deres kunder, hvor it-systemer automatisk skifter mellem forskellige datacenter-ressourcer i tilfælde af et nedbrud.
»NNIT har implementeret forskellige niveauer for failover til forskellige kunder og forskellige situationer, nogle er manuelle, nogle er automatiske. Omfanget af redundans varierer fra at omfatte løsninger, som beskytter udvalgte data, til komplette systemer,« skriver NNIT's pressekontakt i mailen.
It-virksomheden uddyber, at failover-systemerne satte ind under nedbruddet i Ballerup-datacentret, og at det er normalt, at der kan forekomme nedetid i forbindelse med failover-procedurerne.
»I forbindelse med hændelsen i Interxions datacenter trådte failover-funktionerne i kraft på kunde-systemerne efter behov. Afhængig af kompleksiteten på de enkelte løsninger kan failover inkludere en nedetid, det afhænger af løsningens design, og det kan af hensyn til sikkerheden og intakte data være nødvendigt at foretage kontroller,« skriver NNIT's pressekontakt.
På baggrund af svarene har Version2 stillet nye spørgsmål til, hvad der helt konkret er årsagen til, at der forekommer nedetid på op mod to timer i forbindelse med failover-processer hos NNIT. Version2 har desuden spurgt Digitaliseringsstyrelsen til, om styrelsen havde forventet, at failover-løsninger kan inkludere nedetider. Det er endnu ikke lykkedes at få svar, og styrelsen henviser til, at man foreløbig afventer en redegørelse fra NNIT.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.