Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Se kommentarer (16)
Emner Datacenter, It-drift, Serverrum, Supercomputere

Usandsynlig kædereaktion blæste væg og DMI's supercomputer omkuld

DMI's supercomputer var i august ramt af et langt nedbrud. Få hele historien, der starter med et skybrud i 2011 ...

Af Jesper Stein Sandal Tirsdag, 5. februar 2013 - 6:29

Det begyndte med et stort skybrud i København den 2. juli 2011. Så langt skal vi tilbage for at finde begyndelsen på den kæde af begivenheder, som i august 2012 førte til, at supercomputeren hos Danmarks Meteorologiske Institut blev ramt af et flere dage langt nedbrud.

Læs også: DMI's supercomputer smadret af fejludløst brandslukning

Skybruddet i 2011 var skyld i en oversvømmelse i kælderen hos DMI, og det gik ud over en eltavle som forsynede it-systemerne med strøm. Derfor røg strømmen til dele af DMI's it-systemer, så DMI ikke kunne offentligøre nye vejrudsigter på blandt andet dmi.dk.

»Ved skybruddet havde vi vand i kælderen, så en eltavle blev oversvømmet. Den havde vi lige fået flyttet og sat systemerne i gang, men vi havde ikke fået testet nødstrømsanlægget,« fortæller chef for teknik- og dataafdelingen hos DMI, Niels Jørgen Pedersen, til Version2.

Galleri: Her er Danmarks kraftigste supercomputer

Eltavlen var altså blev flyttet fra kælderen kort før nedbruddet i august for at undgå en gentagelse af nedbruddet i 2011.

Læs også: Regnen satte DMI’s supercomputer ud af spillet

Dieselgenerator gav kun strøm til halvdelen af datacentret

Den 21. august mistede Dong Energy strømmen til flere kunder på blandt Østerbro, og heriblandt DMI. Det betød, at DMI's nødstrømsanlæg skulle tage over. Men en fejl i forbindelse med flytningen af eltavlen betød, at kun halvdelen af nødstrømsanlægget fungerede efter hensigten.

»Det var kun halvdelen af nødstrømmen, der gik i gang. Vi kørte derfor på batterier i cirka en halv time, indtil der ikke var mere strøm, hvorefter vi begyndte at lukke systemerne ned,« forklarer Niels Jørgen Pedersen.

Den ene halvdel af datacentret fik strøm fra generatoren og kunne køre normalt, men den anden halvdel kørte på batterierne i nødstrømsanlægget. Selve supercomputeren var en del af den halvdel af datacentret, som stadig havde strøm, og kunne derfor arbejde videre.

Tryk på forkert knap blæste væg ud

Men da batterierne løb tør i den fejlramte del af nødstrømmen, væltede den næste dominobrik i rækken.

»Da batterierne løb tør, lød der en høj alarm fra brandslukningsanlægget. Den alarm var så høj, at medarbejderen som sidder et andet sted og overvåger det, misforstod alarmen og fik trykket på en forkert knap,« fortæller Niels Jørgen Pedersen.

Medarbejderen udløste nemlig brandslukningsanlægget, som tømte indholdet af flere trykflasker med en nitrogenholdig gas ud i serverrummet på få sekunder.

»Det skabte et overtryk, som blæste en væg ud i datacenteret,« fortæller Niels Jørgen Pedersen.

I den forbindelse blev systemdiskene på DMI's Cray-supercomputer beskadiget. Den præcise årsag er endnu ikke klarlagt, da der er tvivl om, hvorvidt det var overtrykket og den væltede væg, der var skyld i skaden, eller om det var en høj lyd fra de dyser, der spredte gassen.

Læs også: Hovedmistænkt i mystisk harddisk-massedød: 130 dB fra brandslukningsdyse

Ombygning skyld i overtryk

Overtrykket i rummet blev formentligt skabt, fordi de aflastningsventiler, som netop skal forhindre et kraftigt overtryk i forbindelse med en udløsning af brandslukningsanlægget, ikke fungerede efter hensigten. Det var formentligt sket i forbindelse med en ændring af bygningen, som huser it-udstyret.

Da systemdiskene blot indeholdt styresystemet til supercomputeren, havde DMI ikke taget backup.

Læs også: Video: Her er lyden der slår harddiske ihjel

»Det er der, hele systemet ligger. Vi havde valgt ikke at tage backup af det, fordi vi altid kunne installere styresystemet igen. Vi havde ikke forestillet os, at sådan noget kunne ske, og vi ville være nede i flere dage,« forklarer Niels Jørgen Pedersen.

DMI var derfor nødt til at vente på, at leverandøren Cray installerede styresystemet igen, og i mellemtiden måtte de danske vejrudsigter udformes med hjælp fra udenlandsk regnekraft.

I kæden af begivenheder var dog også den heldige omstændighed, at DMI havde kørt en test af en ny model på det europæiske meteorologiske computercenter i Storbritannien. Så mens supercomputeren hos DMI på Østerbro i København stod stille, kunne computerne i England tage over og sørge for, at DMI's verjudsigter stadig kunne udkomme.

»Vi havde kørt test med en ny model i løbet af sommeren ovre på ECMWF, som vi kunne slå over på, så vejrudsigterne kom ud,« siger Niels Jørgen Pedersen.

Det var kun selve systemdiskene i DMI's supercomputer, der blev beskadiget. Alle DMI's modeldata, som danner grundlaget for beregningerne, ligger på et særskilt stort storage-system, som ikke tog skade.

Farlig knap forsynet med ekstra beskyttelse

I kølvandet på rækken af nærmest usandsynlige begivenheder, som førte til det lange nedbrud, har DMI efterfølgende både undersøgt, hvad der gik galt, og taget initiativ til at forhindre en gentagelse.

»Vi har installeret en ny aflastningsventil mod overtryk. Vi har også flyttet den knap, medarbejderen kom til at trykke på, og forsynet den med ekstra beskyttelse,« forklarer Niels Jørgen Pedersen.

Overvågningen af serverrummet sker eksternt, og der er nu truffet foranstaltninger for at sikre, at brandslukningsanlægget kun kan udløses, når man er sikker på, at der er tale om brand.

Nyere slukningsanlæg kræver typisk, at flere sensorer og alarmer skal være udløst, før det er muligt at udløse selve slukningsanlægget og frigive gassen.

DMI har også fulgt op med en redegørelse for forløbet for at analysere eventuelle problemer og gøre det muligt at iværksætte initiativer til at forbedre driftssikkerheden.

»Der var nogle ting, vi ikke havde tænkt på, og det må ikke ske to gange,« siger Niels Jørgen Pedersen.

Send Tweet
Udskriv

Mere om Datacenter

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg dette emne

Cern bygger nyt datacenter og skifter Hyper-V ud med Openstack

Udgivet 15. maj 16.18Opdateret 16. maj 9.38

Statens It: Vi sparer fire millioner om året på strøm med nyt datacenter

Udgivet 23. apr 16.37Opdateret 23. apr 16.37

Enormt skydække: Amazon lagrer nu 2 billioner objekter for kunderne

Udgivet 19. apr 10.10Opdateret 19. apr 10.10

Statens It: Så galt var det, før vi gik i gang

Udgivet 16. apr 6.29Opdateret 16. apr 9.44

IT-job & karriere

  • Se alle it-job
  • Importer din kompetenceprofil fra LinkedIn
Netværkstekniker til Danmarks hurtigste netværksløsninger
Udgivet 8. maj 16.06
IT Chef til Det Grønlandske Sundhedsvæsen
Udgivet 22. apr 15.22
Erfaren Microsoft server konsulent tæt på kunden
Udgivet 8. maj 16.23
Sektionsleder Regionale projekter og Forvaltning til OUH Odense Universitetshospital og Svendborg Sygehus
Udgivet 17. maj 15.17

Kommentarer (16)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Flemming Riis 5. feb. 2013 - 08.24
 
tak til DMI+V2

for en forklaring det ikke er blevet vasket.

Det er brugbart for alle :)

  • Stem op 8
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Hans Henrik Happe 5. feb. 2013 - 09.37
 
Surt show

Deleted

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Hans Henrik Happe 5. feb. 2013 - 09.38
 
Surt show

Ja, det er de mærkeligeste ting som kan gå galt i data centre. Oftest er det alt det udenom som fejler og som man ikke lige har det hurtige fix til.

Måske det var en ide at få OS på noget ekstern storage som er spejlet på flere lokationer (i hver fald mange meter adskilt :-) ). Specielt når det kræver at Cray kommer forbi for at lave geninstallering. OS burde ikke have så store krav til storage da det meste bliver cache'et.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Rune Larsen 5. feb. 2013 - 10.23
 
Fysisk adskillelse
http://www.version2.dk/artikel/dmis-supercomputer-2048-kerner-og-110-ter... DMI har købt to styk Cray XT5 [...] redundansen mellem de to systemer [skal] sikre, at vejrprognoserne [...] kan udføres selvom det ene af de to systemer skulle bryde sammen.

Første kommentar af Ville Witt:

Jeg får den opfattelse at de to systemer står på samme adresse - er dette tilfældet? Jeg antager at det er mindre risikobetonet hvis de står adskilt

Så sig ikke, at DMI ikke var advaret mod at have alle æg i en kurv ;-) Det kan dog undre, at de stadig ikke har lært lektien.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Michael Christensens billede
Michael Christensen 5. feb. 2013 - 10.31
 
Business Continuity Planning

Tak for informationerne, de er meget nyttige.

Er det ikke normalt at der er en business continuity manager henne over den slags hændelser på datacentre? De har tilsyneladende ikke afprøvet om eltavler og nødstrøm fungerer efter hensigten - og revideret deres sårbarhedsvurdering.

  • Stem op 3
  • Stem ned 1
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Joe Sørensen 5. feb. 2013 - 10.49
 
Tak for info

Det er fedt med den åbenhed. Hvis bare alle kunne udvise dette.

Og selv om de netop viser, at der var flere ting de kunne have gjort bedre, så mener jeg ikke der er mange professionelle hosting centre, som er mere professionelle end dette. Jeg tror der er mange der sidder med deres UPS og Argonanlæg, som har følt sig sikrer, men kunne komme i samme situation.

  • Stem op 1
  • Stem ned 1
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Ove Andersen 5. feb. 2013 - 10.50
 
Teknikkeren
»Det skabte et overtryk, som blæste en væg ud i datacenteret,« fortæller Niels Jørgen Pedersen.

Jeg bliver hver gang overrasket over de voldsomme brandslukningssystemer.

Er der nogen der ved i hvilken ratio systemet bliver udløst ved brand mod hvor ofte systemet bliver udløst ved "ikke brand"?

Og hvad var der sket med teknikkeren, hvis han havde været nede i serverrummet?

  • Stem op 4
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Morten Fordsmands billede
Morten Fordsmand 5. feb. 2013 - 10.55
 
Re: Fysisk adskillelse

Jo selvfølgelig er det en god ide at have centerredundans.

Det er bare sjældent specielt billigt, lige som det tilføjer en række udfordringer omkring latancy, hvilket vil gøre det væsentligt sværere at køre konfigurationen som et samlet beregningscluster.

Og i øvrigt tak for en artikel der er lærerig i at man sjældent kan se katastrofens vej på forhånd, og at den altid bliver anderledes end forventet.

I øvrigt havde DMI en business continuity plan, det er kendt at de fik afviklet deres kritiske drift hos andre tjenester.

  • Stem op 3
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jesper Stein Sandals billede
Jesper Stein Sandal 5. feb. 2013 - 10.56
 
Re: Teknikkeren

Er der nogen der ved i hvilken ratio systemet bliver udløst ved brand mod hvor ofte systemet bliver udløst ved "ikke brand"?

Der er faktisk flere hosting-udbydere, som overvejer helt at droppe de automatiske gasslukningsanlæg og i stedet sørge for, at der er så lidt brandbart materiale i datacenteret som muligt.

  • Stem op 1
  • Stem ned 2
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
John Schmidt 5. feb. 2013 - 12.17
 
Det hører med til historien

Det hører med til historien at den omtalte knap bar en tekst i stil med "aktiver slukning", samt at der på samme sted tidligere sad en knap til at deaktivere alarmlyden (110db er irriterende). Havde teksten været f.eks. "aktiver brandslukning" kunne incidenten måske være undgået. Det var mere held end forstand at der ikke var IT-personale i omtalte serverhal da det skete, idet knap og serverhal er i separate bygninger.

  • Stem op 2
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Kristian Petersen 5. feb. 2013 - 15.49
 
Hønen eller ægget?

Ved DMI skal det tilføjes, at der if. med opbygningen, som DMI selv stod for, ikke blev taget højde for overtryk. Dvs. at man ved ombygningen ændrede på rummets volumen (m3). Det var der ikke taget højde for i ombygningen, hvorved det tryk der blev oparbejdet ved selve aktiveringen af slukningsanlægget blev noget større end beregnet, resulterende i, at en væg ikke kunne modstå trykket.

I tillæg hertil skal siges, at væggen ikke var fastmonteret, men blot sat i spænd…

Ps.
Det er rigtigt, at flere virksomheder indregner brugen brandhæmmende materialer. Ulempen hermed er blot, at brandhæmmer for det meste er hormonforstyrrende... Så husk det næste gang i tager en ny lækker computer i brug, og når den den dufter så dejlig ny (brandhæmmer).

Brandhæmmer ændre dog desværre heller ikke ved, at såfremt der opstår en brand, så har brandhæmmer en begrænset levetid. Så i tilfælde af, at brandhæmmer ikke "virker" så vil der alligevel opstå en brand i lokalet.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Flemming Riis 5. feb. 2013 - 16.14
 
findes der noget data grundlag for brugen af branslukker

i server rum som ikke er laver af brandslukker producenter eller forsikrings sælgere. (inden for de sidste feks 10år)

Jeg har aldrig hørt om brand der er opstået i er serverrum hvor det så har reddet resten af bygningen eller serverene for at brænde ned

De brænde jeg kender hvor man har mistet serverrummet har anlæget kun forsinket destruktionen med meget kort tid

Udovet det har man altid gjordt hvad er årsagen til at smide det i et moderne serverum (som forventes at ikke at blive benyttet som lager og ups er parkeret et andet sted)

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Henrik Kramshøjs billede
Henrik Kramshøj 5. feb. 2013 - 21.18
 
Re: Teknikkeren

... og i stedet sørge for, at der er så lidt brandbart materiale i datacenteret som muligt.

Der er også en anden grund til at forbyde for meget pap og papir (udover paller og træ) som er at det støver! Det støver faktisk mere end man tænker på. I vores datacenter bliver alting pakket ud udenfor rummet og bagefter båret/kørt ind.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Klaus Elmquist Nielsen 5. feb. 2013 - 23.03
 
Re: Teknikkeren

Der er faktisk flere hosting-udbydere, som overvejer helt at droppe de automatiske gasslukningsanlæg og i stedet sørge for, at der er så lidt brandbart materiale i datacenteret som muligt.


Det bliver godt nok "interessant" at læse om erfaringerne for hvordan det virker i praksis i tilfælde af brand. Man kunne godt frygte at der er alvorlige oversete sammenhænge.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jes Børlums billede
Jes Børlum 7. feb. 2013 - 00.24
 
Morsomt

Så levere DMI ikke længere kun underholdning til DR -
Og hvorfor i "..." har DMI ikke en ISO liggende af sin system partition, det forstår jeg ikke.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer
Jesper Mønsted 19. feb. 2013 - 15.40
 
Re: Morsomt

Nu er det jo ikke bare en simpel windowsmaskine, men et cluster af en ret speciel linux-distribution. DMI har nok afvejet omkostningerne ved at etablere backup af dette mod omkostningen ved bare at reinstallere og fundet at chancen for at de fik brug for at reetablere var for lille.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Teenager står frem: Derfor hackede jeg Version2

Udgivet 17. maj 16.40Opdateret 17. maj 16.40

Fredagshumor: Sådan ser indbakkens pestilenser ud i virkeligheden

Udgivet 17. maj 15.00Opdateret 17. maj 15.00

New Zealand dropper softwarepatenter

Udgivet 17. maj 14.09Opdateret 17. maj 14.09

Microsoft gemmer udspekuleret jobanonnce på Bing

Udgivet 17. maj 11.35Opdateret 17. maj 11.35

Ny wifi-standard med gigabit-hastighed er en gave til it-chefen

Udgivet 17. maj 10.54Opdateret 17. maj 10.54

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Whitepapers

Version2 Insight: Softwaretest

Mediehuset Ingeniøren

Succes historier om OPS – Optimized Print Services

Konica Minolta Business Solutions Denmark

OPS - Optimized Print Services

Konica Minolta Business Solutions Denmark

Mobile Test Service - Device Strategy & Planning

Testhuset

A visual reality check that makes sense - Affecto customer reference

Affecto Denmark
  • Flere whitepapers

Branchenyheder

Interxion nomineret til Årets Service Provider 2013

Interxion Danmark

Seks ud af ti virksomheder er blanke på big data

Interxion Danmark

Interxion bygger nyt datacenter i Valby

Interxion Danmark

Housing Valley på Hørskætten

GlobalConnect

Athena hjælper Mozambique med IT-knowhow

Athena IT-Group

It-virksomheder

ITvagt.dk
|
CapaSystems
|
Motus
|
A/S ScanNet
|
Efferbach
|
Xdc Gruppen
|
NHC
|
Kobalt
|
Outforce
|
BEC
|
It-globalview
|
Dubex
 

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Cookie- & privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Business Intelligence
  • Cloud computing
  • Intranet
  • It-sikkerhed
  • NemID
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu
  • Virtualisering
  • Windows 8
  • Windows Server 2012
  • iOS 6
  • iPhone 5

Tjenester

  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Trekronergade 26 2500 Valby
  • Tlf. work 33265300