DMI's supercomputer smadret af fejludløst brandslukning

DMI har siden en strømafbrydelse tirsdag ikke kunnet bruge supercomputeren, fordi en udløsning af brandslukningsanlægget ødelagde disksystemet.

Danmarks Meteorologiske Institut har siden tirsdag ikke kunnet afvikle de computermodeller, som bruges til at forudsige vejret i Danmark, fordi supercomputeren har været ude af drift.

Fejlen findes ifølge DMI i supercomputerens storagesystem og er sandsynligvis sket på grund af en utilsigtet udløsning af brandslukningsanlægget i serverrummet på DMI.

»Det er gættet, men vi ved det faktisk ikke. Vi er lige kommet op igen enten i aftes eller i nat og kører normalt. Nu skal vi så finde ud af, hvad der i virkeligheden skete,« siger Bjarne Siewertsen fra DMI's kommunikationsafdeling til Version2.

Læs også: Hovedmistænkt i mystisk harddisk-massedød: 130 dB fra brandslukningsdyse

Teknikerne, som har arbejdet på at løse problemerne, fik systemerne op igen til fredag morgen, men Bjarne Siewertsen kender ikke de nærmere detaljer i, hvordan det lykkedes at få liv i disksystemet igen.

De fleste datacentre og serverrum benytter brandslukningsanlæg med nitrogenbaserede gasblandinger, som opbevares under tryk og frigives i løbet af få sekunder for at sænke iltniveauet i rummet til et punkt, hvor en brand ikke længere får ilt nok og derfor slukkes.

Gassen opbevares under tryk i trykflasker med op til 200 bar, og siden 2009 har der været flere tilfælde af disksystemer, som er stået af i forbindelse med udløsning af slukningsanlæg.

Når en gas under tryk udløses gennem en dyse, skaber det en meget høj lyd i de første brøkdele af et sekund efter udløsningen. Den lyd mistænkes for at kunne forstyrre læsehovederne så meget i diskene, at de rammer pladerne og dermed skaber en fejl på disken.

Læs også: Cowi mistænker høje lyde for at ødelægge harddiske

Normalt kan et disksystem tolerere, at et vist antal diske går i stykker inden for et vist tidsrum, men når mange diske bliver ramt af fejl på samme tid, så kan storagesystemet ikke følge med, og der går data tabt, så systemet skal genetableres.

Flere leverandører af slukningsanlæg har nu udviklet nye typer dyser, som giver en mindre kraftig lyd, når anlægget udløses. De nye design sænker lydtrykket fra mere end 130 decibel til mellem 90 og 100 decibel.

Læs også: Lyddæmper skal forhindre harddiskdød ved brandslukning

DMI købte i 2009 en supercomputer fra Cray, som dengang havde en regnekraft på mere end 18 teraflops. Som følge af problemerne med DMI's storagesystem har DMI været nødt til at køre modelberegninger på det europæiske meteorologiske center ECMWF i England, men med begrænsede data.

Modelkørslerne kræver store mængder data, og de skal overføres via internettet til centret i England, men DMI har kun haft mulighed for at køre en delmængde af de beregninger, vejrtjenesten normalt kører.

»Det er kun en lille del af DMI's normale produktion, som bliver kørt i England, og det er først, når vores egen supercomputer producerer igen, at situationen bliver normal,« siger Henrik Feddersen fra DMI's Center for Meteorologiske Modelsystemer til dmi.dk.

DMI blev ramt, da strømmen blev afbrudt tirsdag formiddag på grund af en strømafbrydelse på Østerbro i København. Normalt skulle DMI's nødgenerator koble ind og forsyne serverrummet med nødstrøm, men den generator, som skulle levere strøm til blandt andet DMI's webservere, startede ikke som planlagt.

Derfor måtte DMI lukke serverne ned, mens de stadig kørte på batterier. Da strømmen vendte tilbage på Østerbro, opstod der en ny fejl i et relæ, som skulle koble DMI's serverrum tilbage på elnettet. Derfor gik der yderligere to timer, før strømmen til serverne var genetableret, oplyser DMI på dmi.dk.

Men samtidig opstod der altså en fejl, som udløste dele af brandslukningsanlægget, og det var det, der fik disksystemerne til supercomputeren til at stå af.

Det gik blandt andet ud over DMI's Byvejr-prognoser, hvor DMI var nødt til at lave midlertidige workarounds for at kunne levere et begrænset datasæt til tjenesten.

»Der er stadig nogle mangler, som vi arbejder på. Det sker i løbet af i dag,« siger Bjarne Siewertsen til Version2.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (12)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Ove Andersen

Hvad sker oftest? At et disksystem bliver ødelagt af brand eller af fejludløst brandsystem?

Hvis det er det sidste, så burde man måske droppe det nitrogenbaserede brandslukningssystem da der er større risiko for ens diske bliver ødelagt af det end af en brand.

Og hvorfor er det nu lige, at nitrogenen ikke kan udløses med mindre tryk. Det tager selvfølgelig (måske) 5 sekunder længere, men du har også fungerende diske bagefter.

  • 2
  • 0
Poul-Henning Kamp Blogger

Grunden til at man i gamle dage havde så aggresive brandslukningsanlæg var at man flyttede tonsvis af støvende papir igennem edb-rummet.

En brand i luftbåret papirstøv er nærmest explosionsagtig og derfor fandt man på utroligt hurtigt reagerende slukningsanlæg.

Idag er der ikke ret meget der kan brænde i et EDB rum og det der kan brænder ikke særligt godt og derfor gør slukningsanlæggene oftest mere skade end gavn.

Google og Facebook har begge bygget datacentre helt uden slukningsanlæg.

De brugte i stedet pengene på kabler der ikke kan brænde og derfor ikke spreder branden (Teflon, silikon osv) og en kortere kortslutningsdistance (sikringer tættere på racks) og den slags forebyggende tiltag.

Jeg er helt sikker på at de har fat i den lange ende og ville ikke installere et gasanlæg hvis jeg idag skulle indrette et serverrum.

  • 4
  • 3
Jesper Frimann

Nu har det jo aldrig, været god datacenter skik at have støvende papir, pap, dårlig forkromet udstyr eller andet der kan flyve rund i luften i et datacenter lokale. Det er derfor at man normalt har et separat lokaler, hvor man f.eks. pakker udstyr ud og klargør serveren til at blive puttet i Rack.
Sådanne fremmedlegemer i luften kan gøre ret stor skade på en maskine.

Mht. Google og Facebook, så har de en enorm fordel frem for mange andre, nemlig at de har fuld kontrol over hele infrastruktur stakken (og for den sags skyld også software stakken) og derfor kan gøre, som du siger. De har ikke alle tænkelige typer af enheder (F.eks. brænder mange tape kassetter ret godt) stående fra alle tænkelige leverandører, i alle tænkelig aldre.

Der er meget stor forskel på at skulle løse det 'generelle Datacenter problem' og så det som Google og Facebook kan slippe afsted med. Dermed ikke sagt at det ikke er super smart det de har gang i, man kan godt være lidt misundelig :)=

// Jesper

  • 4
  • 0
Kristian Petersen

Syntes ret godt om de kommentarer som er fremført under de historiske vaner… om end de er mere interessante end korrekte. Årsagen til de såkaldte ”aggressive slukningssystemer” handler egentlig ikke om at flytte støv, men mere om at kunne leve op til de gængse brandkrav der stilles af forskellige brandmyndigheder.

I fordoms tid anvendte man kemikalier (halon) til automatiske rumslukningsanlæg. Dengang havde man 10 sekunders ”udløse” tid på slukningsmidlet. Årsagen hertil havde ikke noget med eksplosionsagtige støvbrande at gøre, men mere den kendsgerning, at HF-baserede slukningssystemer producerer mindre heldige spaltningsprodukter når de kommer i kontakt med ild.

Derfor var en 10 sekunders udløsningstid, og ja det kalder man det, nødvendig/ønskelig, så man derved minimerede spaltningsprodukterne.

Over åre er ydeevnen på harddiske blevet markant bedre. Men den forbedrede ydeevne kan også være årsagen til, at ydre påvirkninger, såsom larm og vibrationer, kan forsage skader på harddiske. Det man skal være opmærksom på i den forbindelse er, at det gælder alle former for ydre påvirkning og ikke kun larm fra brandslukningsanlæg.

Jeg kender ikke til at Google og Facebook har lavet deres datacentre uden brandslukning, dog ved jeg, at man på nogle af datecentrene har installeret gasslukning og sprinkler anlæg... Kombinationen af slukningssystemer og korrekte foranstaltninger vurderer jeg som værende en fornuftig løsning.Jo flere foranstaltninger og jo mere gennemtænkt tingene er, desto bedre sikkerhed.

I dag anvendes de 10 sekunder stadig for kemikalieløsninger hvorimod man på gasslukningssystemer arbejder mere på at få lavet en nænsom slukning, hvilket betyder at man laver udløsningstiden så lang som muligt, for derved at skabe så lidt larm og turbulens som muligt – op til 120 sekunder.Ved diverse forsøg har man endnu ikke kunnet skabe problemer for harddiske når man anvender en lang udløsetid og lyddæmpere monteret på slukningssystemet.

Det tankevækkende i denne debat er, at man ikke har så meget fokus på harddiskene og dennes kvalitet, men mere de ydre omstændigheder… Spørgsmålet er, om man ikke som IT-ansvarlig bør stille krav til vibrations- og larmepåvirkning? Man stiller krav til alt muligt andet så hvorfor ikke også larm og vibration når det er det som får harddiske til at fejle…

  • 3
  • 0
Poul-Henning Kamp Blogger

Årsagen til de såkaldte ”aggressive slukningssystemer” handler egentlig ikke om at flytte støv, men mere om at kunne leve op til de gængse brandkrav der stilles af forskellige brandmyndigheder.

Hvem taler om at "flytte støv" ? Grunden til at man man installerede Halon med 10 sekunders udløsningstid var at det var det eneste der havde en jordisk chance for at forhindre en luft/støv explosion uden at totalskade den installerede hardware.

IBMs krav om brandslukning havde langt mere indflydelse på den praksis end noget krav brandtilsynet nogensiden har rejst. Faktisk var brandtilsynet oftest meget skeptisk overfor halonanlæg og i flere tilfælde blev sådanne anlæg tvangsudløst af brandfolk der nægtede at gå ind i rummet for at se hvad der foregik, mens anlægget var armeret. Har man en gang set en EDB-flise danse rundt i en halv meters højde over en Halon-dyse forstår man dem fint.

Men det er meget simpelt at komme til bunds i:

Er der nogen der faktisk har et eksempel på at udløsningen af et gasanlæg i et moderne serverrum gjorde mere gavn end skade ?

Der må da findes mindst en success-historie ?

  • 1
  • 1
Kristian Petersen

Du kan mene om de 10 sekunder hvad du vil, men din udlægning er desværre ikke korrekt. De 10 sekunder var simpelt hen påkrævet for, at forhindre skadende spaltningsprodukter og har intet med minimering af skadesomfang forårsaget af luft/støv eksplosionsbrande – men en interessant teori.

Du bør holde dig for øje, at gasslukningssystermer har været på markedet de sidste 15 år, men det først fornyeligt, at der er opstået ”problemer”. I tillæg skal man også holde sig for øje, at i de 15 år er lydniveauet fra gasslukningsanlægi i realiteten kun blevet lavere... Seneste tiltag er de omtalte lyddæmpere.

Spørgsmålet er så om det slukningssystemerne der er problemet eller den vedvarende stræben efter hurtigere, bedre og mindre hardware, som nu indvirker på harddiskenes manglende stabilitet?

Når det så er sagt, så findes der gudskelov primært kun ”happy fires” i moderne serverrum. Medierne har i den senere tid lugtet en god historie, hvad angår inerte slukningsanlæg som angiveligt ”total” ødelægger harddiske. Sandheden er, at det er ganske få anlæg som bliver påvirket, og af de få bør man dvæler ved, hvad det er der går i stykker samt omfanget.

Ud af de få installationer, er det ganske få af de installerede harddiske som bliver påvirket. Her taler vi om mindre en 1,5%. Så det man i samme omgang skal vurdere er, at om de harddiske der ”stiger”, er harddiske som i sig selv er på nippet til at lade livet…

Hvor ofte udskifter man ikke defekte harddiske?

  • 0
  • 0
Kristian Petersen

Halonen er et HFC baseret slukningsmiddel!

HFC-baseret og floreret keton baserede slukningsmidler kendetegnes ved, at de har et meget lavt kogepunkt. Det betyder, at jo højere temperatur der er i et lokale, desto større vil spaltningen af slukningsmidlet være. Derfor handler det om at slukke branden så hurtigt som muligt, så spaltningen holdes på et lavt niveau.

HFC’er og floreret keton producerer mange forskellige spaltningsprodukter, men det er almen kendt, at de producere relativ store mængder af hydrogenfluorid (HF) og carbonyl fluorid (COF). Hvis man googler disse spaltningsprodukter finder man hurtigt ud af, at man absolut ønsker at minimere forekomsten af disse.

En måde at gøre det på er at minimere tømningstiden. Så de 10 sekunder har intet med at forhindre støv/eksplotionsagtige brande, men et ønske om at minimere spaltningsprodukterne.

Inert baserede slukningsmidler har ingen spaltnings produkter, hvorved de er ideelle til serverrum og andre steder hvor der er en stor forekomst af elektricitet. Gennem de senere år har der været nogle episoder som beskrevet ovenstående. Men spørgsmålet er om det kan tilskrives slukningssystemerne eller i lige så høj grad den måde harddiskene i dag er udformet på - harddiske er blevet for skrøbelige.

  • 0
  • 0
Poul-Henning Kamp Blogger

@Kristian:

Kan vi lige få en deklaration her: Lever du tilfældigvis af gasslukningsanlæg ?

I såfald bedes du stoppe dit salgsgas (sorry, kunne ikke lade være...) indtil du har leveret den success-historie jeg spurgte om ovenfor.

Grunden til at man gik bort fora Halon1301 havde intet med spaltningsprodukter at gøre, det handlede alene om Montreal traktaten om ozonlagsbeskyttelse.

  • 0
  • 0
Joe Sørensen

Vi skal også lige definerer ordet datatab.

Harddiske går ikke i stykker af denne lyd. De stopper.

Mens lyden er, så har diskene meget svært ved at søge og har også flere læse/skrive fejl. På trods af dette, så er sandsynligheden for at harddisken ødelægger data, ret lille. RAID controlleren flagger hurtig harddisken som BAD. RAID controllere har generelt ingen humor og tillader ikke at harddiske pludselig mister ydelse. Og slet ikke læse/skrive fejl. Datatabet kommer af at mange RAID controllere har en buffer og de fortælle resten af systemet at data er skrevet til disken lige så snart det står i denne buffer. Desværre kan lyden få RAID controlleren til at flagge alle diske som BAD og disse data bliver så aldrig skrevet alligevel.

Oplevelsen for administratoren er selvfølgelig "blå skærm" og derefter kan systemet ikke starte fordi alle diske er BAD. Dog kan RAIDet genopbygges, hvorefter filsystemet skal genopbygges, hvorefter databaser osv skal genopbygges. De sidste skrivninger er selvfølgelig væk, og man skal nok også bruge google når RAIDet skal genopbygges, men så er det heller ikke være.

Det giver selvfølgelig nedetid og tabte transaktioner, men man mister altså ikke alle diske og deres backup samtidig.

Dette kan selvfølgelig afprøves med et RAID i et lille rum og et par bot-horn. :-)

  • 2
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize