Usandsynlig kædereaktion blæste væg og DMI's supercomputer omkuld
Det begyndte med et stort skybrud i København den 2. juli 2011. Så langt skal vi tilbage for at finde begyndelsen på den kæde af begivenheder, som i august 2012 førte til, at supercomputeren hos Danmarks Meteorologiske Institut blev ramt af et flere dage langt nedbrud.
Skybruddet i 2011 var skyld i en oversvømmelse i kælderen hos DMI, og det gik ud over en eltavle som forsynede it-systemerne med strøm. Derfor røg strømmen til dele af DMI's it-systemer, så DMI ikke kunne offentligøre nye vejrudsigter på blandt andet dmi.dk.
»Ved skybruddet havde vi vand i kælderen, så en eltavle blev oversvømmet. Den havde vi lige fået flyttet og sat systemerne i gang, men vi havde ikke fået testet nødstrømsanlægget,« fortæller chef for teknik- og dataafdelingen hos DMI, Niels Jørgen Pedersen, til Version2.
Eltavlen var altså blev flyttet fra kælderen kort før nedbruddet i august for at undgå en gentagelse af nedbruddet i 2011.
Dieselgenerator gav kun strøm til halvdelen af datacentret
Den 21. august mistede Dong Energy strømmen til flere kunder på blandt Østerbro, og heriblandt DMI. Det betød, at DMI's nødstrømsanlæg skulle tage over. Men en fejl i forbindelse med flytningen af eltavlen betød, at kun halvdelen af nødstrømsanlægget fungerede efter hensigten.
»Det var kun halvdelen af nødstrømmen, der gik i gang. Vi kørte derfor på batterier i cirka en halv time, indtil der ikke var mere strøm, hvorefter vi begyndte at lukke systemerne ned,« forklarer Niels Jørgen Pedersen.
Den ene halvdel af datacentret fik strøm fra generatoren og kunne køre normalt, men den anden halvdel kørte på batterierne i nødstrømsanlægget. Selve supercomputeren var en del af den halvdel af datacentret, som stadig havde strøm, og kunne derfor arbejde videre.
Tryk på forkert knap blæste væg ud
Men da batterierne løb tør i den fejlramte del af nødstrømmen, væltede den næste dominobrik i rækken.
»Da batterierne løb tør, lød der en høj alarm fra brandslukningsanlægget. Den alarm var så høj, at medarbejderen som sidder et andet sted og overvåger det, misforstod alarmen og fik trykket på en forkert knap,« fortæller Niels Jørgen Pedersen.
Medarbejderen udløste nemlig brandslukningsanlægget, som tømte indholdet af flere trykflasker med en nitrogenholdig gas ud i serverrummet på få sekunder.
»Det skabte et overtryk, som blæste en væg ud i datacenteret,« fortæller Niels Jørgen Pedersen.
I den forbindelse blev systemdiskene på DMI's Cray-supercomputer beskadiget. Den præcise årsag er endnu ikke klarlagt, da der er tvivl om, hvorvidt det var overtrykket og den væltede væg, der var skyld i skaden, eller om det var en høj lyd fra de dyser, der spredte gassen.
Ombygning skyld i overtryk
Overtrykket i rummet blev formentligt skabt, fordi de aflastningsventiler, som netop skal forhindre et kraftigt overtryk i forbindelse med en udløsning af brandslukningsanlægget, ikke fungerede efter hensigten. Det var formentligt sket i forbindelse med en ændring af bygningen, som huser it-udstyret.
Da systemdiskene blot indeholdt styresystemet til supercomputeren, havde DMI ikke taget backup.
»Det er der, hele systemet ligger. Vi havde valgt ikke at tage backup af det, fordi vi altid kunne installere styresystemet igen. Vi havde ikke forestillet os, at sådan noget kunne ske, og vi ville være nede i flere dage,« forklarer Niels Jørgen Pedersen.
DMI var derfor nødt til at vente på, at leverandøren Cray installerede styresystemet igen, og i mellemtiden måtte de danske vejrudsigter udformes med hjælp fra udenlandsk regnekraft.
I kæden af begivenheder var dog også den heldige omstændighed, at DMI havde kørt en test af en ny model på det europæiske meteorologiske computercenter i Storbritannien. Så mens supercomputeren hos DMI på Østerbro i København stod stille, kunne computerne i England tage over og sørge for, at DMI's verjudsigter stadig kunne udkomme.
»Vi havde kørt test med en ny model i løbet af sommeren ovre på ECMWF, som vi kunne slå over på, så vejrudsigterne kom ud,« siger Niels Jørgen Pedersen.
Det var kun selve systemdiskene i DMI's supercomputer, der blev beskadiget. Alle DMI's modeldata, som danner grundlaget for beregningerne, ligger på et særskilt stort storage-system, som ikke tog skade.
Farlig knap forsynet med ekstra beskyttelse
I kølvandet på rækken af nærmest usandsynlige begivenheder, som førte til det lange nedbrud, har DMI efterfølgende både undersøgt, hvad der gik galt, og taget initiativ til at forhindre en gentagelse.
»Vi har installeret en ny aflastningsventil mod overtryk. Vi har også flyttet den knap, medarbejderen kom til at trykke på, og forsynet den med ekstra beskyttelse,« forklarer Niels Jørgen Pedersen.
Overvågningen af serverrummet sker eksternt, og der er nu truffet foranstaltninger for at sikre, at brandslukningsanlægget kun kan udløses, når man er sikker på, at der er tale om brand.
Nyere slukningsanlæg kræver typisk, at flere sensorer og alarmer skal være udløst, før det er muligt at udløse selve slukningsanlægget og frigive gassen.
DMI har også fulgt op med en redegørelse for forløbet for at analysere eventuelle problemer og gøre det muligt at iværksætte initiativer til at forbedre driftssikkerheden.
»Der var nogle ting, vi ikke havde tænkt på, og det må ikke ske to gange,« siger Niels Jørgen Pedersen.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.