Interxion-direktør erkender: Mystisk kollaps i datacenter har ført til »seriøse« kontraktbrud

Nedbruddet i Interxions datacenter skyldtes blandt andet et brud på en køle-slange. Dog ikke den på billedet her. Illustration: Bigstock
Interxion kunne ikke overholde kundeaftaler, da deres store datacenter i Ballerup gik ned søndag. Virksomheden er nu kommet tættere på at finde årsagen til nedbruddet og afviser, at det skyldes én enkelt hændelse. Flere svar mangler dog stadig.

Et mystisk stigende tryk i et køleanlæg og en efterfølgende eksplosion af en defekt slange. Meget tyder på, at det var årsagen til det omfattende nedbrud på et stort datacenter i Ballerup, som medførte, at flere af landets servere, hjemmesider og også kritiske it-systemer gik i sort.

Datacentret er ejet af Interxion, som leverer it-infrastruktur til private virksomheder og offentlige myndigheder. Siden weekendens kollaps har Interxion arbejdet på en såkaldt incident-rapport, som skal kaste lys over, hvad det var, der gik galt på det danske datacenter. Nu er rapporten klar.

Det meddeler Peder Bank, der er managing director hos Interxion. Han afviser af kundehensyn, at udlevere rapporten til Version2, men han vil gerne løfte sløret for de opdagelser, der er blevet gjort i kølvandet på hændelsen.

Han peger på, at der om søndagen opstod en bemærkelsesværdig stigning i trykket i datacentrets vandbårne køleanlæg sidst på eftermiddagen.

»Der er noget, som indikerer, at der sker noget mystisk i det, vi kalder for kølegården. Den består af otte kølere i containerstørrelse, der alle bidrager til systemet. Der er noget, som går i selvsving inde i kølegården, og det er det, som får trykket til at stige,« siger han.

Et knytnæve-stort hul

Normalt ligger driftstrykket i datacentrets køleanlæg omkring 2,3 bar, men søndag eftermiddag begyndte det at stige. Ved 2,8 bar blev der udsendt en alarm, men trykket voksede fortsat i den efterfølgende periode, før teknikerne nåede at lokalisere fejlen.

Systemet er designet og trykprøvet til at kunne klare ti bar, og hvis trykket overstiger 6 bar, bliver der aktiveret en sikkerhedsventil, som skal forhindre yderligere stigning.

Men det nåede aldrig at ske. Allerede ved 4,8 bar – før sikkerhedsventilen skulle aktiveres – sprang en slange, som indgår i kølesystemet. Ifølge Peder Bank har den været defekt.

»Der var en fejl på slangen, som gjorde, at den kunne springe før sikkerhedsniveauet var nået. Der kom et hul på størrelse med en knytnæve i slangen, og nu har vi pillet den ud. Vi undersøger desuden, hvor den kommer fra, om der er andre af den slags, som skal udskiftes,« siger han.

Varmt vejr i fokus

Ifølge Peder Bank er det stadig uklart, hvad der fik trykket til at stige til vejrs, og hvorfor slangen sprang ved 4,8 bar, når den har været testet til at skulle holde til mere end det dobbelte.

Da Version2 tidligere på ugen spurgte ind til, om vejret havde spillet en rolle i forhold til nedbruddet, sagde Peder Bank, at der på daværende tidspunkt ikke var noget, der indikerede, at temperaturene udendørs havde haft en effekt.

Termometeret nåede op over 30 grader den sommer-søndag, hvor nedbruddet skete, og ifølge Interxion-direktøren er teorien nu kommet tilbage i undersøgelserne.

Er I kommet nærmere på, om temperaturerne udenfor har haft indflydelse på det her nedbrud?

»Den er under mistanke, men i og med, at vi ikke har den endelige forklaring til problemet, så kan jeg heller ikke pege på den endnu. Jeg kan ikke udelukke den, men den er muligvis mere under mistanke, end den var før,« siger han og fortsætter:

»Vi savner at finde ud af, hvad der starter den uheldige kædereaktion i kølegården. Én af parametrene er, at det var en varm dag, så spørgsmålet er, om det har noget med det at gøre. Det kan ikke konkluderes endnu, men det kan heller ikke udelukkes.«

Afviser single point of failure

Peder Bank mener ikke, at nedbruddet er opstået på grund af en enkelt sikkerhedshændelse, og oplyser at datacentrets kølesystem er etableret som en såkaldt N+1-løsning med ekstra kølere, pumper og væsentlige komponenter.

»Vi skal have en infrastruktur, hvor det ikke kan være en enkelt fejl, der lægger os ned. Det er vores ansvar. Jeg mener heller ikke, at der er tale om en enkelt fejl, fordi der er tale om en kædereaktion. Det er et højt tryk, der får slangen til at springe, så det er mere end én ting, der er gået galt,« siger Peder Bank og tilføjer:

»Man kan ikke stille en 100-procents garanti. Derfor bliver de kunder, der har absolut kritiske systemer, nødt til at indbygge sikkerhed på serverniveau.«

Som Version2 tidligere har beskrevet medførte det store hul på slangen, at de 100 kubikmeter vand fra køleanlægget ifølge Peder Bank »populært sagt fossede ud af tankene«. Han påpeger, at centrets udstyr dog ikke blevet ødelagt af de store vandmasser.

»De 100 kubikmeter vand løb ned i vores ingeniørgang underbygningen, og der er derfor ikke blevet beskadiget udstyr på grund af vand,« siger han.

Seriøse kontraktbrud kan medføre straf

Interxions datacenter i Ballerup er delt op i to afdelinger ved navn København1 og København2. De har hver sin infrastruktur med køling, og nedbruddet ramte København1.

Peder Bank bekræfter, at det er alle kunder i København1-afdelingen, som har oplevet for høje temperaturer i deres kunderum under nedbruddet.

På nuværende tidspunkt har han ikke et overblik over skadesomfanget i forhold til ødelagt udstyr, og hvor meget det måtte koste. Han erkender dog, at Interxion ikke har været i stand til at overholde deres kundeaftaler om at levere ordentlige temperaturer.

»Jeg kan ikke sige noget om, hvad det direkte har haft af betydning for kunderne. Nogle har kunne køre videre, og de har bare oplevet en rigtig varm aften. Andre har haft nogle mere følsomme systemer, som har lukket ned. Jeg ved bare, at min opgave er at levere temperaturer, som jeg ikke har kunne levere til alle sammen.«

Han ved ikke på stående fod, om der er kunder, som endnu ikke er blevet reetableret efter kollapset, men ifølge ham er Interxions systemer på plads igen. Derudover påpeger han, at det altid er en kunderne selv, der beslutter om de vil lukke udstyr ned for eksempelvis at undgå overophedning.

»Vi skal holde os inde for vores SLA (service level agreement, red.) med en ordentlig temperatur, og i tilfælde af, at den kommer uden for normal afvigelse, så skal vi orientere vores kunder hurtigst muligt,« siger Peder Bank.

Er der udsigt til, at der vil blive betalt erstatning til kunder?

»Alle vores SLA’er er sikret af en række strafmuligheder. Det er klart, at der er nogle seriøse SLA-brud, som kontraktuelt kommer til at medføre noget såkaldt penalty,« siger han og tilføjer, at han endnu ikke ved, hvor stort et beløb, der er tale om.

»Vi fokuserer i første omgang på, at få centret stabiliseret, og det har vi gjort. Derudover fokuserer vi på at få styr på fejlen og kunne garantere vores SLA, som den skal være. Så kommer vi til at kigge på, hvad det betyder i forhold til kontrakter mellem os og vores kunder.«

Men det er altså alle kunder i København1, hvor der har været brud på SLA’en?

»Det vil være min antagelse.«

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (25)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Mogens Lysemose

Tak for interessant indsigt.
Som jeg læser det skal der blot brud på en enkelt slange til for at udløse problemet. Trykket har holdt sig langt under sikkerhedsgrænsen og slangen sprang alligevel og centret gik ned. Ergo: en enkelt fejl lægger centret ned!
Trykstigningen er udløsende årsag, ikke den grundlæggende årsag, det er fejl på slangen samt at den er single point of failure!

Hvis slangen er i kølet område kan det ikke være vejrets skyld; modsat hvis den f.eks. løber på et varmt loft - så kan det jo være årsagen til bruddet.

Lars Jensen

Den del af anlægget der ikke er dubbleret er vurderet til ikke at udgøre en risiko for drift af anlægget. Det består af nogle simple rør, og de er trykprøvet til 10 bar (som jeg læser det).
Slangen er fleksibel og bevægelig, og kan derfor udsættes for træthedsbrud.
Jeg ved ikke hvor og hvorfor man har brugt slange, men typisk er det overgang fra kølemaskiner til den faste installation (rør) for ikke at overføre vibrationer, som så vil medføre at røret får træthedsbrud.
Desværre sker det at man trykprøver ved idriftsættelse af anlægget, og så glemmer man det efterfølgende, og man trykprøver kun sikkerhedsventilen somforeskrevet af arbejdstilsynet. Der er ikke myndighedskrav om trykprøvning af det samlede anlæg. Det er op til virksomhedens vedligeholdelsesorganisation at vurdere om det skal gøres - og hvor ofte.

Anders Lorensen

RCA'en indeholder en væstentlig detalje som artiklen ikke nævner:

Overvågningen får rigtig mange alarmer omkring mangel på tryk da bryddet kommer. - Hertil 1 enkelt af typen "vand på gulvet alarm". Overvågningsfolkene stessede af alle alarmerne, og får ikke prioriteret denne "vand på gulvet alarm" - Hvilket betyder man ikke får "bypassed" bruddet, og ikke for lukket for at vandet fosser ud. - Havde man bare fået reageret på denne alarm med det samme, havde der nok aldrig været et SLA brud, og katastrofen havde været undgået.

Så kort sagt, der skete 2 fejl, en fejl på en slange og en menneskelig fejl.

Mads Jamborg Jørgensen

Har oplevet tilsvarede varme problemer i et hostingcenter

Efter hændelsen var jeg nødt til at udskifte mange harddiske der løbende gik i stykker i en periode på ca. 1 måned

Kunderne bør reagere meget hurtigt på at udskifte defekte harddiske for ellers risikerer de at der går en harddisk for meget i stykker med deraffølgende driftsnedbrud og datatab til følge

Rasmus Thomsen

Ved drifttryk på 2.3 bar, så går jeg ud fra at anlægget ikke har åben ekspansionsbeholder (højdetank), da den derved ville sidde i 23 meters højde. Jeg antager dermed lukket ekspansion.

Anlægget (loggen?) rapporterer stigende tryk søndag eftermiddag, ved omgivelsestemperatur på 30 grader, hvorefter en slange springer og 100 kubikmeter vand strømmer ud.

-Hvor stor (liter) er den lukkede ekspansionsbeholder, og hvornår og hvordan var gaspåfyldningen sidst kontrolleret?
-Hvordan er blæren (rubber diaphragm) undersøgt efterfølgende lækagen?
-Hvilket drifttryk kan cirkulationspumpen yde med lukket afgang? (Jeg formoder under 4.8 bar, men det tager sekunder at verificere)
-Beskriv anordningerne til påfyldning af kølevand og proceduren herfor?
-Beskriv anordningerne til påfyldning af kemikalier og proceduren herfor.

Endelig, kædereaktion og sort snak, tillader at enhver bruger sin fantasi. Her er mit bud. Den lukkede ekspansionsbeholder havde tabt sit gastryk, hvilket har medført at anlægstrykket har svinget med temperaturen. Det har givet alarmer+tilkald indtil en midlertidig påfyldningsslange blev monteret og efterladt med åbne ventiler. Jeg gætter fra vandværket, med kontraventil, trykreduktionsventil og haveslange til anlæggets påfyldningsstuds.

-Mit bud er måske fornærmende, men det forklarer hvordan en slange kan indgå i en kølekreds, og hvorfor trykket steg med temperaturen.
-Slanger der springer ved 4.8 bar, og tapper 100 kubikmeter vand, øh. Er det ikke mere sandsynligt at slangekoblingen er købt i jem&fix og at den ikke har været strammet af én med et fast håndtryk (læs maskinmester) .

Morten Borg
Jonas Olsson

Normalt ligger driftstrykket i datacentrets køleanlæg omkring 2,3 bar, men søndag eftermiddag begyndte det at stige. Ved 2,8 bar blev der udsendt en alarm, men trykket voksede fortsat i den efterfølgende periode, før teknikerne nåede at lokalisere fejlen.

Lyder til forveksling som plottet i første afsnit af HBO's Chernobyl.

Mogens Lysemose

De fleste servere lukker automatisk ned, når temperaturen bliver for høj.


Kræver det ikke at serveren og OS'et understøtter det og er konfigureret til det?
En moderne desktop-CPU [1] vil formodentlig bare lave throttle down pga. varmen, altså fortsætte ved lav kraft. Hvis der ikke sker mere kører harddiskene bare videre som normalt.
[1] jeg ved ikke hvad en dyr server-CPU vil gøre - køre videre eller throttle down?
Det er ikke givet at alle kunder har købt det dyreste serverhardware.Jeg har selv været et sted hvor vi havde meget forskelligt udstyr stående hos InterXion. Og antagelsen var at køling og strøm havde de styr på.

Tylon Foxx

jeg ved ikke hvad en dyr server-CPU vil gøre - køre videre eller throttle down?

Også server-CPU'ere throttler.... Ligesom på desktop begynder de at drosle ned ved ca 70 grader, og ved 80-90 grader slukker de computeren helt og med det samme, som hvis du slukkede på kontakten.

Proceduren er som regel:
1. Turbo mode bliver slået fra hvis processoren har dette.
2. Hvis det ikke er nok, clocker CPUen sig længere ned... helt ned til den laveste multiplier den kan klare.
3. Hvis det ikke er nok, eller temperaturen overskrider den tilladte som er programmeret ind i CPU eller BIOS/UEFI, slukker maskinen helt og med det samme

Nogle server CPU'ere har dog en højere temperaturparameter før de slukker maskinen... gerne 90-100 grader eller mere... Intel kalder fx denne for TJUNCTION temperaturen - den max tilladte die temperatur.

På nogle maskiner (desktops og servere), kan man dog slå det fra eller justere parmetrene til en vis grænse.... det er dog aldrig det smarteste at gøre.

Det bliver forresten ikke styret fra OS'et for det meste... det er BIOS/UEFI der selv slukker computeren hvis processoren(e) bliver for varme.

Har man en god hardwareovervågningspakke, kan man dog fange det i opløbet og lukke serveren ned "gracefully" og få nogle programmer (hvis de er programmeret korrekt) til at reagere på det inden der opstår datatab... det er dog langt fra alle programmer og løsninger der kan dette - eller i det hele tage kompensere for en "paniksituation" som denne. Nogle overvågningsprogrammer kan også sættes til at køre scripts hvis CPUen eller andet HW er ved at blive for varmt... fx få program X til at gemme data hvert minut frem for hver time for at minimere datatabet, eller lukke/stoppe bestemte lavprioriterede programmer eller VMs for at aflaste systemet.

Mogens Lysemose

Tak Tylon, det bekræfter at det ikke erhelt sikkert at harddiske lukkes ned automatisk når rumtemp når f.eks. 45 grader. I min tidligere virksomhed mener jeg ikke vi havde forholdt os til den situation (meget karakteristisk i øvrigt; firmaet kørte altid på randen afgrunden) og dermed var det ikke veldefineret hvad der ville ske - om bios lukkede alt ned eller lod det køre videre.
Og det kunne sagtens være forskelligt for hver servertype.

Ole Nikolaisen

Hvis et erstatningsansvar i den refererede sag skal afgøres efter se alm. gældende regler, er det måske tvivlsom om interxion kan gøres betalingspligtig. Er der aftalt en konventionalbod, er det en anden sag. Men som en lille trøst til de virksomheder, som kan dokumentere et driftstab eller afholdte meromkostninger, vil jeg mene der er erstatning at hente hos eget forsikringsselskab. Selvfølgelig forudsat forsikringsløsningen er lavet rigtigt. Men spændende sag, som viser at den ekstra sikkerhed som normalt forventes af et topprofessionelt driftscenter åbenbart ikke er til stede i alle situationer. Dette er ikke første gang, hvor den ene skade udløser en dominoeffekt. Leverandørdriftstabsforsikring bliver konstant vigtigere i takt med outsourcing af den "navlestreng", som it-driften i praksis bliver.

Mads Jamborg Jørgensen

Svar til Morten Borg
Har ikke oplevet at servere af sig selv automatisk lukker ned når server-rummet bliver for varmt, de sætter i stedet hastigheden på de interne blæsere op
Det kan godt være at serverne kan forsætte driften i et varmt server-rum, men det er ikke det samme som at harddiske bliver kølet tilstrækkeligt
Hvis der for den enkelte kunde i et hosting-center, er monitorering på rum-temperaturen, så kan et sådant system godt være i stand til at lukke serverne ned
Der er typisk mange forskellige IT systemer i et server-rum, mange med harddiske indbygget (rack server, blade, SAN, NAS, Firewalls, Routere ....) - det er nok vanskeligt at sørge for automatisk nedlukning på alt
Har oplevet mange steder, at man stoler blindt på hosting-udbyderen og ikke har monitorering med automatisk nedlukning
Men håber at du har ret i dette tilfælde ;-)

Baldur Norddahl

Hvis det er den rapport jeg har modtaget, så er der ikke mange flere oplysninger i den, end det der allerede er kommet frem. Interxion synes selv det er en pinlig sag, så de vil nok gerne lukke den her.

Man kan altid debattere hvad der gik galt. I min optik er det dog ligeså vigtigt at tale om hvordan vi håndtere situationen. Der er altid noget der kan gå galt, så vi må have en plan for hvad der skal ske, når det sker.

Jeg kan læse at det er kundens eget ansvar at slukke når det bliver for varmt. Men lige det mener jeg man måske skulle ændre på. Jeg havde godt set at de bare havde slukket vores udstyr i stedet for at lade det koge videre.

På samme måde som jeg også forventer at man hellere afbryder strømmen end tillader strøm der er "out of spec" og som kan skade udstyret.

Med andre ord, hold levering indenfor SLA og hvis det ikke lader sig gøre, så sluk indtil der igen er styr på forholdene.

Morten Borg

Har ikke oplevet at servere af sig selv automatisk lukker ned når server-rummet bliver for varmt, de sætter i stedet hastigheden på de interne blæsere op

Jeg har arbejdet med HP, Dell og IBM servere. De har alle gjort det pr. default, medmindre man direkte overrider det i BIOS/EFI. Men selvfølgelig er det sidste udvej for serveren, det er klart at de skruer op for ventilatorer og ned for CPU først.

Men det er korrekt, at der kan være SAN, DAS, NAS og andre disksystemer som ikke har samme funktionalitet. Omvendt vil nok ikke være meget aktivitet på dem hvis serverne som bruger dem er lukket ned.

Claus Bruun

Her er mit bud. Den lukkede ekspansionsbeholder havde tabt sit gastryk, hvilket har medført at anlægstrykket har svinget med temperaturen. Det har givet alarmer+tilkald indtil en midlertidig påfyldningsslange blev monteret og efterladt med åbne ventiler. Jeg gætter fra vandværket, med kontraventil, trykreduktionsventil og haveslange til anlæggets påfyldningsstuds.

Den forklaring lyder spot on - desværre !

Victoria Hansen

Også server-CPU'ere throttler.... Ligesom på desktop begynder de at drosle ned ved ca 70 grader, og ved 80-90 grader slukker de computeren helt og med det samme, som hvis du slukkede på kontakten

Det er ikke helt sådan det fungerer i praksis.

Det er rigtigt at hvis funktionen er slået til i BIOS, så vil CPU'en lave en hard-poweroff hvis denne bliver for varm, men så langt når man typisk aldrig.

Alle servere jeg har arbejdet med har et management system (ILO/DRAC/IMM) som holder øje med temperaturerne, og hvis disse bliver for høje sender systemet en soft-poweroff (lige som ved et kort tryk på power knappen) som får hypervisoren til at videregive dette soft-poweroff til alle VMs, som så betyder at alt lukker ned på sikker vis uden data tab og korrupte filsystemer mv.
Dette sker typisk LANGT inden CPU'en når den kritiske temperatur, på de servere jeg har, bliver soft-poweroff sendt, ved ambient temperaturer over 47c.

De SAN jeg har arbejdet med, har dog ikke denne funktionalitet, og er kun beskyttet af CPU'ens max temp grænse.

Men som Morten Borg rigtigt nok er inde på, så vil varmeudviklingen i SAN'et typisk være minimal når der ikke længere er noget I/O.
Og SAN er typisk bygget til at forhindre datatab fra cacher mv. selv ved hard-poweroff hvor man trækker stikket eller tilsvarende.

Troels Tolstrup

Der har nu også været en hel del kunder der har haft multi center drift og ikke blev ramt af dette nedbrud. Vi har et aktiv-cold standby setup, og i følge vores overvågning tog det ca 5 minutter for standby setuppet at spinde op og få os tilbage til normal drift.

Det føles dog lidt fesent at den dag vores disaster recovery setup rent faktisk redder os lige skulle være på en søndag hvor skaden ville være relativt begrænset, men jeg slap da for en stresset søndag og kunne nøjes med at følge driftsudmeldingerne med interesse :)

Steffen Carl Jacobsen

Det var bare et lille indspark til debatten fra en Tier 4 datacenter nørd.

Et Tier 4 datacenter ville ikke være gået ned, fordi der gik hul på en slange med kølevand. Det ville for den sags skyld heller ikke være gået ned pga. enhver anden enkeltfejl inklusiv følgefejl.

Desværre er Tier 4 ikke så udbredt, men det er meeeeget driftssikkert.

Log ind eller Opret konto for at kommentere