40 grader varmt hostingcenter sender edbpriser.dk til tælling

Et udfald i et køleanlæg gav temperaturer på over 40 grader i en serverhal hos hostingfirmaet Netgroup. Det sendte blandt andet Aller-hjemmesiden edbpriser.dk til tælling.

Mandag aften sendte et udfald på et centralt køleanlæg temperaturen op på over 40 grader Celcius i en serverhal hos hostingfirmaet Netgroup.

Det resulterede blandt andet i nedetid for hardware-hjemmesiden edbpriser.dk på 10-15 minutter, da servere i den overophedede hal automatisk begyndte at lukke ned for at beskytte sig mod varmen.

Det fortæller mediekoncernen Aller, der står bag edbpriser.dk og er én af de berørte kunder hos Netgroup.

Køleanlægget var sendt til tælling i en time til halvanden fra ved 18-tiden mandag, ifølge Netgroups oplysninger.

Servere lukkede ned automatisk

»Jeg stod midt i aftensmaden og tænder computeren for at se på vores overvågning af serverne,« fortæller teknisk ansvarlig for it-drift i Aller, Daniel Kristensen, til Version2.

Netgroup hoster i alt omkring 4.000 servere fordelt på én serverhal i et datacenter i Glostrup og to i et datacenter i Taastrup. Aller har sine servere fordelt på de to haller i Taastrup, hvor der mandag aften opstod problemer med et køleanlæg i den ene af hallerne, Hal 5.

»Jeg kunne se, at der var forskel på CPU-temperaturen mellem de to haller. I den ene hal (Hal 5, red.) lå den på omkring 58 grader, og i den anden på 34 grader, og det er en meget god indikator på, at der er noget galt,« siger Daniel Kristensen.

Daniel Kristensen tog efterfølgende ud til Hal 5 i Taastrup, hvor han mødte Allers driftspartner Inforce, som også havde hørt om problemet med køleanlægget fra flere andre kunder. Inforce står som driftspartner normalt for kontakten til Netgroup, på vegne af Aller.

To af Allers servere lukkede automatisk ned på grund af den tropelignende temperatur i serverhallen hos Netgroup.

»Netgroup oplyste til os, at temperaturen i Hal 5 var lidt over 40 grader. Vi besluttede at flytte én af serverne til den anden hal, og den var så varm, at det var ubehageligt at holde på den,« siger Daniel Kristensen.

Aller lukkede selv ned for yderligere to af de omkring 20 servere, koncernen har stående i Hal 5, for at sikre dem mod datatab.

Resten af serverne blev efterladt kørende for at se tiden an, fortæller Daniel Kristensen. Man afventer nu hos Aller, om der kan være sket skader på netop de servere.

»Mange servere af lidt ældre dato lukker automatisk ned ved en temperatur på 40 grader for at beskytte udstyret. Men vi kan jo ikke være helt sikre på, at der er ikke er noget af hardwaren, der har taget skade af den høje temperatur på de servere, der kørte videre,« siger Daniel Kristensen.

****Aller måtte lægge en »Vi opdaterer siden«-meddelelse ud på edbpriser.dk i nedeperioden på 10-15 minutter, men også shoppingsiden shop.dk og forum-delen af edbpriser.dk og flere andre Aller-sider var nede i samme tidsperiode.

Ifølge Daniel Kristensen skyldes den forholdsvis kortvarige nedetid kun, at Aller har en høj grad af redundans på sine servere.

Netgroup: Burde ikke ske igen

Hos Netgroup beklager man hændelsen.

»Det er altid uheldigt, når der sker fejl, men den er nu blevet udbedret og burde ikke kunne ske igen,« siger administrerende direktør i Netgroup, Jesper Dyhr.

Direktøren bekræfter, at enkelte kunders servere har lukket ned automatisk på grund af temperaturen i Hal 5. Men han har ikke modtaget meldinger fra kunderne om skader på udstyret.

Vurderingen er lige nu, at fejlen har ligget i en styringsenhed i køleanlægget i Hal 5, fortæller Jesper Dyhr.

»Samtidig har vi haft et elektrikerfirma til at gennemgå alle installationerne omkring køleanlægget, og derudover sætter vi et andet elektrikerfirma, som tjekker installationerne igennem uafhængigt heraf,« siger Jesper Dyhr.

»Som udgangspunkt er problemet nu løst, og vi har gjort, hvad vi kunne for at sikre, at det ikke sker igen fremadrettet,« siger direktøren.

Køleanlægs-nedbrud nummer to på få dage

Hos Aller bekymrer det Daniel Kristensen, at Netgroup fredag ? altså tre dage før udfaldet af køleanlægget i Hal 5 mandag aften ? oplevede et kortvarigt udfald af køleanlægget i den anden serverhal i Netgroups Taastrup-afdeling.

Jesper Dyhr mener dog ikke, at de to hændelser umiddelbart har noget med hinanden at gøre.

»Udfaldet fredag var slet ikke af samme kaliber, og det er to forskellige køleanlæg, så de to hændelser har for så vidt ikke noget med hinanden at gøre. Det er i hvert fald vurderingen, som situationen ser ud lige nu,« forklarer Jesper Dyhr.

Ifølge Daniel Kristensen har episoden efterladt ridser i lakken på Netgroups image.

»Vi er ærgelige over, at der sker udfald med køleanlæggene både fredag og mandag i to haller, som er fuldstændig adskilt. Netgroup står jo for al vores infrastruktur, og det slider på vores forhold til dem, det er der ingen tvivl om,« siger Daniel Kristensen.

Jesper Dyhr oplyser, at Netgroup og underleverandøren af køleanlægget i den kommende tid vil arbejde med et øget beredskab som følge af problemerne med køleanlæggene.

Netgroup forventer, at kunderne modtager en redegørelse for hændelsen i løbet af de kommende dage.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (18)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Mogens Nørgaard

... havde 40 grader ikke stoppet noget :).

Jeg arbejdede i Uniras (ære være dets minde) i midt-80'erne, og dér dukkede Michael Möller (som var min fremragende chef og nu arbejder her i Miracle) op som sædvanligt om morgenen for at tage noget backup.

Da han åbnede døren var der 70+ grader i serverrummet (som hed EDB-rummet dengang), fordi kølingen var stået af.

VAX-maskinerne fra Digital Equipment Corporation kørte stadig lystigt - de var designede til at kunne køre i tropiske omgivelser uden ekstern køling, tror jeg.

Mainframen (IBM) havde det skidt - nogle af diskene var begyndt at smelte lidt.

Men om jeg fatter, hvorfor sølle 40 grader kan få noget som helst til at stå af...

Mvh.

Mogens

  • 0
  • 0
Jonathan Dybkjær

Det er godt nok ikke et særlig seriøst hosting sted, når de ikke engang har automatisk fejlmelding på køleanlægget.

"Ja, vi opdagede ved et tilfælde at kølingen var stået af" - Super...

Så hvad er indikatoren for brand? Endnu højere CPU temp?

  • 0
  • 0
Lars Peter Andersen

Omkring tætsiddende komponenter som harddiske og RAM vil temperaturen være meget højere og harddiske står normalt af ved omkring 60°. Men der er vel næppe nogen, der har opdaget forskellen - edbpriser.dk er i forvejen blevet sååå langsooom efter Aller overtog og lavede om på designet. Ved ikke lige om det er servere der performer dårligt eller selve designet, men det er i hvert fald uudholdeligt.

Mvh. Lars

  • 0
  • 0
Michael Mortensen

Det ligger også fjernt fra min forståelse, at sølle 40 grader kan forårsage hardware fejl.

Nu har jeg godt nok kun én server derhjemme (jep - man er jo nørd) som er af mærket Dell og med en enkel Intel Xeon Quad processor og en 4 SATA-II diske.

Temperaturen internt ligger på omkring 45-50 grader, og den har nu kørt upåklageligt siden ultimo 2008.

Min gamle server, som kørte upåklageligt i godt 7 år, lå med en intern temperatur over de 50 grader (og brugte ALT for meget strøm - men det var inden man tænkte grønt), og havde kun en enkelt weekends nedetid grundet lynnedslag - den ristede den ene af de to strømforsyninger.

Denne var en ren Intel server og larmede som et jetfly, hvorfor den måtte lade livet da man fik kone på .. :-)

  • 0
  • 0
Benny Olsen

Direktøren har ikke modtaget meldinger om skader på udstyret!

Helt ærligt, det er sådan man laver accelereret ældelsestest, hvis udstyret på få timer er blevet uger eller måneder ældre, så vil jeg kalde det skader uanset at udstyret stadig kører.

  • 0
  • 0
søren ploug

Som håndregel kan man regne med at elektroniks levetid falder til det halve hver gang temperaturen stiger 10 gr. Celcius. Eks: En cpu med en temp. på 40 gr. antages at kunne køre i 10 år. Nu hæves temp til 60 gr. og levetiden kan nu antages at blive 2½ år. For år tilbage lavede jeg meget service for lydstudier hvor man har en vane med at sætte alt op i racks med meget lidt luftcirkulation. Det gav en masse sjove fejl også på nyere udstyr - især når der nederst i racket sad en/flere store effektforstærkere ;-) Hvis der er 40 gr. i lokalet kan man være sikre på at temperaturen inde i maskinerne er meget højere (måske 40-50 grader). Hvis nogle udsatte mine maskiner for + 20 gr. temp.stigninger ville jeg kræve erstatning - deres levetid er helt sikkert forringet.

  • 0
  • 0
Jon Bendtsen

Som håndregel kan man regne med at elektroniks levetid falder til det halve hver gang temperaturen stiger 10 gr. Celcius. Eks: En cpu med en temp. på 40 gr. antages at kunne køre i 10 år. Nu hæves temp til 60 gr. og levetiden kan nu antages at blive 2½ år.

Har det nogen betydning om temperatur stigningen sker imens udstyret er tændt eller slukket? (forudsat at der er tale om moderate temperaturstigninger som ikke smelter ledninger, plastik, ... eller direkte starter en brand)

Jeg laver temperatur overvågning og laver shutdown og power off hvis temperaturen er for høj, netop fordi jeg tror at udstyret holder bedre til at stå passivt i et VARMT rum end når det er tændt.

  • 0
  • 0
Baldur Norddahl

Hvad får dig til at tro at Netgroup ikke har overvågning? I artiklen omtales kun Allers forhold.

Netgroup er generelt et udmærket sted, hvor de har styr på hvad de laver.

Jeg går ud fra at man nu eftergår designet, for at finde ud af hvordan det kunne gå galt. Firmaet har brugt mange penge på at gøre alt redundant og så kan det ikke være ret sjovt at se det bryde sammen alligevel.

  • 0
  • 0
Claus Andreaseen

Moderne servere fra HP og IBM behøver du ikke at overvåge på den måde, det gør serverne helt automatisk og de sender også automatisk alarmer før det bliver kritisk - reagerer man ikke på de alarmer vil serverne sutomatisk og kontrolleret selv lukke ned. Disse parametre/tresholds kan man frit justere efter egne forhold og behov. Såm måske du skal frigøre og spare lidt tid med at temp overvåge dine servere. Køb rigtige enterprise servere istedet for.

  • 0
  • 0
Jon Bendtsen

Såm måske du skal frigøre og spare lidt tid med at temp overvåge dine servere. Køb rigtige enterprise servere istedet for.

Rigtige enterprise servere er kun relevant når man har rigtige enterprise opgaver.[1] Den slags opgaver er jeg ikke stødt på endnu, og derfor klarer jeg mig fint med mindre, der er ingen grund til overkill.

Men derfor kan man jo lige så godt passe på udstyret, og hvis det holder længere ved at lukke ned når airconditionen går i stykker, så vil jeg da godt gøre det.

Jeg forstår ikke hvad du mener med at spare tid? CPU tid? Så belastede er maskinerne heller ikke, og jeg gør det ikke manuelt, temperaturen måles via smart og lm-sensors og så lukker maskinerne ned.

[1]: For at få erfaring med enterprise drift så kunne det da være interessant at komme hen et sted og hjælpe til.

  • 0
  • 0
Claus Andreaseen

Hej igen Jon, jeg beklager at jeg ikke fik formuleret mig ordentligt. Når jeg tænker enterprise servere så taler jeg om Servere der ligger på 10.000kr og opefter. Tager man en standard ProLiant Server fra HP i 300 serien, jamen så har den alle disse ting indbygget og det er helt automatisk. Samtidig kan serveren faktisk også fortælle dig om at der snart vil ske fejl på diske, memory eller processorer FØR fejlen faktisk er opstået og garantien dækker ombytning også på komponenter der endnu ikke har fejlet og den melder det selv direkte til HP 24/7/365 og det er en service som er ganske gratis. Det har sparet os for mange uheldige oplevelser og givet os en fantastisk oppetid og drift stabilitet.

Ja, dette er blot nogle af de vilde features man ser på sådanne "enterprise" servere. Og så er der hele management delen som kører fuldautomatisk, uden at vi skal bruge tid på daglig overvågning eller lige checke status på serverne.

  • 0
  • 0
Daniel Pedersen

De 40 grader er cost valg og skal findes i komponent/chip specifikationerne, extended temperatur range (70grader, vax) er ældre chip indpakning teknologi, og sjovt nok noget dyrer.

IBM, Dell, HP etc. har valgt at bruge billigere komponenter og beskytte hw investering, og ikke kundens indtjening.

Men en interesant debat, hvad vil folket gerne have. Skal udstyret køre videre udenfor spec med risiko for selvdestruktion, Vil folket betale hvad det koster at kunne køre ved 70 grader eller skal udstyret begrænse skadens omfang.

Mvh Daniel

  • 0
  • 0
Aki Bjørnsson

Så skulle man udover almindelig styring af varmen i serverrummet, have styr på om temperaturen udenfor var kold nok, og den skulle renses for støv og fugt inden den blev sent ind i cirkulation. Så ville det alligevel være billigere at opstille endnu en køler op som kun skulle håndtere nødsituationer, men den ville nok tage mange år at betale sig hjem. For prisen til kunderne kan ikke skrues op uendeligt. Der vil altid være trade-off for sikkerhed og pris, og så må kunden bestemme hvor meget den er villig til at betale ekstra for ca. 1% sikrere driftstemperatur.

  • 0
  • 0
Henning Makholm

Okay, den ordinære køling er brudt ned og vi åbner i panik en dør (på 1.6 m²) i hver ende af serverhallen og håber på lidt gennemtræk, lad os sige 4 m/s (let vind) over hele arealet af hver døråbning. Hvis der er 40 °C indenfor og 0 °C udenfor, og gennemtrækket bliver godt blandet op med indeluften, kan vi fjerne (...regneregneregne...) 330 kW fra lokalet på den måde.

Hvor mange servere kan man få for 330 kW? Næppe nok til at man vil tale om en "hal" i stedet for et "rum".

  • 0
  • 0
Log ind eller Opret konto for at kommentere