DMI's supercomputer smadret af fejludløst brandslukning
Danmarks Meteorologiske Institut har siden tirsdag ikke kunnet afvikle de computermodeller, som bruges til at forudsige vejret i Danmark, fordi supercomputeren har været ude af drift.
Fejlen findes ifølge DMI i supercomputerens storagesystem og er sandsynligvis sket på grund af en utilsigtet udløsning af brandslukningsanlægget i serverrummet på DMI.
»Det er gættet, men vi ved det faktisk ikke. Vi er lige kommet op igen enten i aftes eller i nat og kører normalt. Nu skal vi så finde ud af, hvad der i virkeligheden skete,« siger Bjarne Siewertsen fra DMI's kommunikationsafdeling til Version2.
Teknikerne, som har arbejdet på at løse problemerne, fik systemerne op igen til fredag morgen, men Bjarne Siewertsen kender ikke de nærmere detaljer i, hvordan det lykkedes at få liv i disksystemet igen.
De fleste datacentre og serverrum benytter brandslukningsanlæg med nitrogenbaserede gasblandinger, som opbevares under tryk og frigives i løbet af få sekunder for at sænke iltniveauet i rummet til et punkt, hvor en brand ikke længere får ilt nok og derfor slukkes.
Gassen opbevares under tryk i trykflasker med op til 200 bar, og siden 2009 har der været flere tilfælde af disksystemer, som er stået af i forbindelse med udløsning af slukningsanlæg.
Når en gas under tryk udløses gennem en dyse, skaber det en meget høj lyd i de første brøkdele af et sekund efter udløsningen. Den lyd mistænkes for at kunne forstyrre læsehovederne så meget i diskene, at de rammer pladerne og dermed skaber en fejl på disken.
Normalt kan et disksystem tolerere, at et vist antal diske går i stykker inden for et vist tidsrum, men når mange diske bliver ramt af fejl på samme tid, så kan storagesystemet ikke følge med, og der går data tabt, så systemet skal genetableres.
Flere leverandører af slukningsanlæg har nu udviklet nye typer dyser, som giver en mindre kraftig lyd, når anlægget udløses. De nye design sænker lydtrykket fra mere end 130 decibel til mellem 90 og 100 decibel.
DMI købte i 2009 en supercomputer fra Cray, som dengang havde en regnekraft på mere end 18 teraflops. Som følge af problemerne med DMI's storagesystem har DMI været nødt til at køre modelberegninger på det europæiske meteorologiske center ECMWF i England, men med begrænsede data.
Modelkørslerne kræver store mængder data, og de skal overføres via internettet til centret i England, men DMI har kun haft mulighed for at køre en delmængde af de beregninger, vejrtjenesten normalt kører.
»Det er kun en lille del af DMI's normale produktion, som bliver kørt i England, og det er først, når vores egen supercomputer producerer igen, at situationen bliver normal,« siger Henrik Feddersen fra DMI's Center for Meteorologiske Modelsystemer til dmi.dk.
DMI blev ramt, da strømmen blev afbrudt tirsdag formiddag på grund af en strømafbrydelse på Østerbro i København. Normalt skulle DMI's nødgenerator koble ind og forsyne serverrummet med nødstrøm, men den generator, som skulle levere strøm til blandt andet DMI's webservere, startede ikke som planlagt.
Derfor måtte DMI lukke serverne ned, mens de stadig kørte på batterier. Da strømmen vendte tilbage på Østerbro, opstod der en ny fejl i et relæ, som skulle koble DMI's serverrum tilbage på elnettet. Derfor gik der yderligere to timer, før strømmen til serverne var genetableret, oplyser DMI på dmi.dk.
Men samtidig opstod der altså en fejl, som udløste dele af brandslukningsanlægget, og det var det, der fik disksystemerne til supercomputeren til at stå af.
Det gik blandt andet ud over DMI's Byvejr-prognoser, hvor DMI var nødt til at lave midlertidige workarounds for at kunne levere et begrænset datasæt til tjenesten.
»Der er stadig nogle mangler, som vi arbejder på. Det sker i løbet af i dag,« siger Bjarne Siewertsen til Version2.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.