Usandsynlig kædereaktion blæste væg og DMI's supercomputer omkuld

5. februar 2013 kl. 06:2916
DMI's supercomputer var i august ramt af et langt nedbrud. Få hele historien, der starter med et skybrud i 2011 ...
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Det begyndte med et stort skybrud i København den 2. juli 2011. Så langt skal vi tilbage for at finde begyndelsen på den kæde af begivenheder, som i august 2012 førte til, at supercomputeren hos Danmarks Meteorologiske Institut blev ramt af et flere dage langt nedbrud.

Skybruddet i 2011 var skyld i en oversvømmelse i kælderen hos DMI, og det gik ud over en eltavle som forsynede it-systemerne med strøm. Derfor røg strømmen til dele af DMI's it-systemer, så DMI ikke kunne offentligøre nye vejrudsigter på blandt andet dmi.dk.

»Ved skybruddet havde vi vand i kælderen, så en eltavle blev oversvømmet. Den havde vi lige fået flyttet og sat systemerne i gang, men vi havde ikke fået testet nødstrømsanlægget,« fortæller chef for teknik- og dataafdelingen hos DMI, Niels Jørgen Pedersen, til Version2.

Eltavlen var altså blev flyttet fra kælderen kort før nedbruddet i august for at undgå en gentagelse af nedbruddet i 2011.

Dieselgenerator gav kun strøm til halvdelen af datacentret

Den 21. august mistede Dong Energy strømmen til flere kunder på blandt Østerbro, og heriblandt DMI. Det betød, at DMI's nødstrømsanlæg skulle tage over. Men en fejl i forbindelse med flytningen af eltavlen betød, at kun halvdelen af nødstrømsanlægget fungerede efter hensigten.

Artiklen fortsætter efter annoncen

»Det var kun halvdelen af nødstrømmen, der gik i gang. Vi kørte derfor på batterier i cirka en halv time, indtil der ikke var mere strøm, hvorefter vi begyndte at lukke systemerne ned,« forklarer Niels Jørgen Pedersen.

Den ene halvdel af datacentret fik strøm fra generatoren og kunne køre normalt, men den anden halvdel kørte på batterierne i nødstrømsanlægget. Selve supercomputeren var en del af den halvdel af datacentret, som stadig havde strøm, og kunne derfor arbejde videre.

Tryk på forkert knap blæste væg ud

Men da batterierne løb tør i den fejlramte del af nødstrømmen, væltede den næste dominobrik i rækken.

»Da batterierne løb tør, lød der en høj alarm fra brandslukningsanlægget. Den alarm var så høj, at medarbejderen som sidder et andet sted og overvåger det, misforstod alarmen og fik trykket på en forkert knap,« fortæller Niels Jørgen Pedersen.

Artiklen fortsætter efter annoncen

Medarbejderen udløste nemlig brandslukningsanlægget, som tømte indholdet af flere trykflasker med en nitrogenholdig gas ud i serverrummet på få sekunder.

»Det skabte et overtryk, som blæste en væg ud i datacenteret,« fortæller Niels Jørgen Pedersen.

I den forbindelse blev systemdiskene på DMI's Cray-supercomputer beskadiget. Den præcise årsag er endnu ikke klarlagt, da der er tvivl om, hvorvidt det var overtrykket og den væltede væg, der var skyld i skaden, eller om det var en høj lyd fra de dyser, der spredte gassen.

Ombygning skyld i overtryk

Overtrykket i rummet blev formentligt skabt, fordi de aflastningsventiler, som netop skal forhindre et kraftigt overtryk i forbindelse med en udløsning af brandslukningsanlægget, ikke fungerede efter hensigten. Det var formentligt sket i forbindelse med en ændring af bygningen, som huser it-udstyret.

Da systemdiskene blot indeholdt styresystemet til supercomputeren, havde DMI ikke taget backup.

»Det er der, hele systemet ligger. Vi havde valgt ikke at tage backup af det, fordi vi altid kunne installere styresystemet igen. Vi havde ikke forestillet os, at sådan noget kunne ske, og vi ville være nede i flere dage,« forklarer Niels Jørgen Pedersen.

DMI var derfor nødt til at vente på, at leverandøren Cray installerede styresystemet igen, og i mellemtiden måtte de danske vejrudsigter udformes med hjælp fra udenlandsk regnekraft.

I kæden af begivenheder var dog også den heldige omstændighed, at DMI havde kørt en test af en ny model på det europæiske meteorologiske computercenter i Storbritannien. Så mens supercomputeren hos DMI på Østerbro i København stod stille, kunne computerne i England tage over og sørge for, at DMI's verjudsigter stadig kunne udkomme.

Artiklen fortsætter efter annoncen

»Vi havde kørt test med en ny model i løbet af sommeren ovre på ECMWF, som vi kunne slå over på, så vejrudsigterne kom ud,« siger Niels Jørgen Pedersen.

Det var kun selve systemdiskene i DMI's supercomputer, der blev beskadiget. Alle DMI's modeldata, som danner grundlaget for beregningerne, ligger på et særskilt stort storage-system, som ikke tog skade.

Farlig knap forsynet med ekstra beskyttelse

I kølvandet på rækken af nærmest usandsynlige begivenheder, som førte til det lange nedbrud, har DMI efterfølgende både undersøgt, hvad der gik galt, og taget initiativ til at forhindre en gentagelse.

»Vi har installeret en ny aflastningsventil mod overtryk. Vi har også flyttet den knap, medarbejderen kom til at trykke på, og forsynet den med ekstra beskyttelse,« forklarer Niels Jørgen Pedersen.

Overvågningen af serverrummet sker eksternt, og der er nu truffet foranstaltninger for at sikre, at brandslukningsanlægget kun kan udløses, når man er sikker på, at der er tale om brand.

Nyere slukningsanlæg kræver typisk, at flere sensorer og alarmer skal være udløst, før det er muligt at udløse selve slukningsanlægget og frigive gassen.

DMI har også fulgt op med en redegørelse for forløbet for at analysere eventuelle problemer og gøre det muligt at iværksætte initiativer til at forbedre driftssikkerheden.

»Der var nogle ting, vi ikke havde tænkt på, og det må ikke ske to gange,« siger Niels Jørgen Pedersen.

16 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
15
7. februar 2013 kl. 00:24

Så levere DMI ikke længere kun underholdning til DR - Og hvorfor i "..." har DMI ikke en ISO liggende af sin system partition, det forstår jeg ikke.

16
19. februar 2013 kl. 15:40

Nu er det jo ikke bare en simpel windowsmaskine, men et cluster af en ret speciel linux-distribution. DMI har nok afvejet omkostningerne ved at etablere backup af dette mod omkostningen ved bare at reinstallere og fundet at chancen for at de fik brug for at reetablere var for lille.

12
5. februar 2013 kl. 16:14

i server rum som ikke er laver af brandslukker producenter eller forsikrings sælgere. (inden for de sidste feks 10år)

Jeg har aldrig hørt om brand der er opstået i er serverrum hvor det så har reddet resten af bygningen eller serverene for at brænde ned

De brænde jeg kender hvor man har mistet serverrummet har anlæget kun forsinket destruktionen med meget kort tid

Udovet det har man altid gjordt hvad er årsagen til at smide det i et moderne serverum (som forventes at ikke at blive benyttet som lager og ups er parkeret et andet sted)

11
5. februar 2013 kl. 15:49

Ved DMI skal det tilføjes, at der if. med opbygningen, som DMI selv stod for, ikke blev taget højde for overtryk. Dvs. at man ved ombygningen ændrede på rummets volumen (m3). Det var der ikke taget højde for i ombygningen, hvorved det tryk der blev oparbejdet ved selve aktiveringen af slukningsanlægget blev noget større end beregnet, resulterende i, at en væg ikke kunne modstå trykket.

I tillæg hertil skal siges, at væggen ikke var fastmonteret, men blot sat i spænd…

Ps. Det er rigtigt, at flere virksomheder indregner brugen brandhæmmende materialer. Ulempen hermed er blot, at brandhæmmer for det meste er hormonforstyrrende... Så husk det næste gang i tager en ny lækker computer i brug, og når den den dufter så dejlig ny (brandhæmmer).

Brandhæmmer ændre dog desværre heller ikke ved, at såfremt der opstår en brand, så har brandhæmmer en begrænset levetid. Så i tilfælde af, at brandhæmmer ikke "virker" så vil der alligevel opstå en brand i lokalet.

10
5. februar 2013 kl. 12:17

Det hører med til historien at den omtalte knap bar en tekst i stil med "aktiver slukning", samt at der på samme sted tidligere sad en knap til at deaktivere alarmlyden (110db er irriterende). Havde teksten været f.eks. "aktiver brandslukning" kunne incidenten måske være undgået. Det var mere held end forstand at der ikke var IT-personale i omtalte serverhal da det skete, idet knap og serverhal er i separate bygninger.

7
5. februar 2013 kl. 10:50

»Det skabte et overtryk, som blæste en væg ud i datacenteret,« fortæller Niels Jørgen Pedersen.

Jeg bliver hver gang overrasket over de voldsomme brandslukningssystemer.

Er der nogen der ved i hvilken ratio systemet bliver udløst ved brand mod hvor ofte systemet bliver udløst ved "ikke brand"?

Og hvad var der sket med teknikkeren, hvis han havde været nede i serverrummet?

6
5. februar 2013 kl. 10:49

Det er fedt med den åbenhed. Hvis bare alle kunne udvise dette.

Og selv om de netop viser, at der var flere ting de kunne have gjort bedre, så mener jeg ikke der er mange professionelle hosting centre, som er mere professionelle end dette. Jeg tror der er mange der sidder med deres UPS og Argonanlæg, som har følt sig sikrer, men kunne komme i samme situation.

5
5. februar 2013 kl. 10:31

Tak for informationerne, de er meget nyttige.

Er det ikke normalt at der er en business continuity manager henne over den slags hændelser på datacentre? De har tilsyneladende ikke afprøvet om eltavler og nødstrøm fungerer efter hensigten - og revideret deres sårbarhedsvurdering.

4
5. februar 2013 kl. 10:23

https://www.version2.dk/artikel/dmis-supercomputer-2048-kerner-og-110-t…
DMI har købt to styk Cray XT5 [...] redundansen mellem de to systemer [skal] sikre, at vejrprognoserne [...] kan udføres selvom det ene af de to systemer skulle bryde sammen.

Første kommentar af Ville Witt:

Jeg får den opfattelse at de to systemer står på samme adresse - er dette tilfældet?</p>
<p>Jeg antager at det er mindre risikobetonet hvis de står adskilt

Så sig ikke, at DMI ikke var advaret mod at have alle æg i en kurv ;-) Det kan dog undre, at de stadig ikke har lært lektien.

8
5. februar 2013 kl. 10:55

Jo selvfølgelig er det en god ide at have centerredundans.

Det er bare sjældent specielt billigt, lige som det tilføjer en række udfordringer omkring latancy, hvilket vil gøre det væsentligt sværere at køre konfigurationen som et samlet beregningscluster.

Og i øvrigt tak for en artikel der er lærerig i at man sjældent kan se katastrofens vej på forhånd, og at den altid bliver anderledes end forventet.

I øvrigt havde DMI en business continuity plan, det er kendt at de fik afviklet deres kritiske drift hos andre tjenester.

3
5. februar 2013 kl. 09:38

Ja, det er de mærkeligeste ting som kan gå galt i data centre. Oftest er det alt det udenom som fejler og som man ikke lige har det hurtige fix til.

Måske det var en ide at få OS på noget ekstern storage som er spejlet på flere lokationer (i hver fald mange meter adskilt :-) ). Specielt når det kræver at Cray kommer forbi for at lave geninstallering. OS burde ikke have så store krav til storage da det meste bliver cache'et.

1
5. februar 2013 kl. 08:24

for en forklaring det ikke er blevet vasket.

Det er brugbart for alle :)