Defekt UPS og SAN-nedbrud lammer it-drift i fire ministerier

Et strømsvigt i indre København sendte tirsdag Statens IT til tælling. Systemalarmerne er endnu ikke på plads, og fire ministerier har hele dagen i går bøvlet med nedbrud i it-systemerne.

Et strømsvigt tirsdag klokken 8.15 i det indre København betød, at en af Statens IT's serverlokationer gik i sort.

Fire ministerier plus Statens IT's egne systemer blev berørt af it-nedbruddet, der altså ikke begrænsede sig til de tre kvarter, hvor strømmen var væk. De tre af ministerierne var oppe at køre igen over frokost, mens problemerne for Integrationsministeriet varede en stor del af dagen.

Dermed var halvdelen af Statens IT's 'kunder' ramt af nedbruddet hos den nye, centrale enhed, der blev oprettet for at effektivisere og forbedre statens it-drift.

Hos Statens IT blev tirsdag den 29. juni en af den slags dage, der vil blive husket. Det var dagen, hvor begreber som 'incident management' og 'major incident' pludselig fik en meget konkret mening.

Martin Pedersen, områdechef for service og support, fortæller her om en højst usædvanlig dag i Statens IT:

»Jeg opdager ved ni- halv ti-tiden, at min mail bliver ustabil. Ideelt set bør vi selvfølgelig opdage den slags før det sker, men vi er stadig i gang med at rulle alarmsystemer ud på serverne,« siger Martin Pedersen, der pointerer, at Statens IT stadig er en meget ny organisation.

»Så kontakter jeg min incident manager, og hun kalder folk sammen for en statusrapport. Hvad er sket, hvem er ramt, hvad skal vi have styr på, og herefter uddelegerer vi opgaverne en for en. De koordinerende holder møde hver time. Jeg opfatter møderne som koncentrerede og effektive ? men det er de også nødt til at være, når 30 mennesker er stuvet ind i et lille mødelokale,« fortsætter Martin Pedersen.

SAN'et gik ned
Hurtigt står det klart, at en intern styring i Integrationsministeriets SAN er stået af som følge af strømsvigtet, og at medarbejderne derfor ikke har adgang til data.

»Det er meget uheldigt, og medarbejderne lider under det. Det beklager vi selvfølgelig. Men IBM har været hurtige til at kalde folk og reservedele op fra Europa for at få det ordnet,« siger Martin Pedersen.

Selve strømsvigtet varer et sted mellem en halv time og tre kvarter. På en anden lokation kører den centrale serverlokation i den periode på UPS'ens batteri-backup-strøm, men da bystrømmen kommer tilbage, kan UPS'en tilsyneladende ikke finde ud af at skifte tilbage til normal strømforsyning.

»Vi går selvfølgelig i gang med at lukke systemerne ned i god ro og orden, men vi kan så ikke få dem op at køre igen, da strømforsyningen ikke switcher tilbage til bystrøm,« siger Martin Pedersen.

Ulyksaligvis er en af de ramte servere den, der står for Statens IT's egen ip-telefoni, og den manglende kommunikationskanal skruer udfordringerne en tand i vejret.

Læs også: Otte ministerier i strømsvigt-kaos: End ikke telefonerne virker

»Den havde vi nok ikke lige tænkt over. At det kunne ramme os selv så voldsomt. Og det giver selvfølgelig anledning til selvransagelse, om vores koncept er robust nok. IP-telefonien er akilleshælen både for os og kunderne,« siger Martin Pedersen.

Han fortæller videre, at der heldigvis eksisterede papirkopier af telefonlisterne ? inklusive mobilnumre - og at kontakten til superbrugerne på de enkelte lokationer fungerede fint som besked-kæde.

Martin Pedersen mener dog ikke, der ? når man tager organisationens alder i betragtning ? er sket deciderede fejl.

»At bystrømmen ikke slår tilbage er sort uheld og meget irriterende. Og set ud fra, hvor vi er lige nu, er det svært at forudse, at en intern styring i SAN kunne stå af. Men ud fra de givne forudsætninger er jeg egentlig godt tilfreds med vores håndtering, og om et år vil vi have langt bedre styr på situationen,« siger Martin Pedersen.

På baggrund af nedbruddet bliver arbejdet med at få finpudset beredskabsplanerne nu speedet op.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (11)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Thomas Alexander Frederiksen

Det er meget fint at have udstyr og planer, men tester man ikke om udstyr og procedurer virker i praksis er de teknisk set intet værd.

At bystrømmen ikke slår tilbage er sort uheld og meget irriterende.

Ovenstående efterlader mig med ét brændende spørgsmål: Har de prøvet at tage bystrømmen helt bevidst for at teste om alt slår til og fra som det skal?

  • 0
  • 0
dan poulsen

At tage bystrømmen er en normal test procedure, men det giver et falsk billede af virkeligheden.
Efter bystrømmen har været væk længe vil nettet umiddelbar efter indkoblingen ofte være ustabilt med svingende spænding.
Et stort problem er at mange ups-systemer af historiske årsager er konfigureret til meget snævre tolerancer således en spænding på f.eks 210V medføre at man slår over på ups strøm. Helt galt bliver det hvis man anvender det i forbindelse med en Dieseldrevet backup generator, som typisk også er ustabil i frekvensen.
Idag er alt it elektronik forsynet med switch-mode forsyninger som sagtens kan klare spændinger fra 180-260V, 40-60hz så der er ingen grund til at slå ups'en til før end det er virkelig skidt. og man kan godt koble ind på lav eller høj spænding.

Jeg kender ikke til den konkrete sag men, jeg har arbejdet med ups'er i u-lande flere år og har set ovenstående problemstillinger dagligt, og de betragtes i danmark nærmest som af akademisk interesse, men når virkeligheden rammer, kan selv akademiske overvejelser vise sig at være nyttige :-)

  • 0
  • 0
Poul-Henning Kamp Blogger

Det er en meget væsentlig pointe, men den starter i salgsledet:

UPS sælgere bruger meget tid på at berette om de skrækhistorier der er ved "uren strøm" og den slags.

Det anses for meget vigtigt for gensalg at en UPS kobler ud i nogle sekunder et par gange om året, så kunderne "kan se at den er nødvendig", derfor sættes frekvenstolerancen ofte helt vanvittigt tæt i forhold til hvad der er behov for.

I flere tilfælde har man i USA set at store UPS installationer gjorde det svært at rejse elnettet igen efter en strømafbrydelse.

Det typiske scenarie er: Strømmen kommer tilbage, UPSer kobler ind, strømmen ryger ud af den for snævre tolerance, gentag.

Med moderne teknologi er der intet til hinder for at UPS'er kan kobles ind og ud blødt, f.eks med en rampe på et minut og ligeledes kunne opladning af batterierne gradueres og eventuelt gøres frekvensafhængig.

Vi har teknologien, vi mangler bare lovkravet om intelligent elforbrug der gør at den bliver rullet ud.

Poul-Henning

  • 0
  • 0
Joe Dalton

Et SAN eller storage system kan i meget få tilfælde gå ned - af sig selv. Det her er ikke et tilfælde!

Strømudfald er absolut en af de fejlkilder man bør sikre sig allermest imod i større data centre, hvorfor problemet med Integrationsministeriets SAN/storage lyder som et meget dårligt setup eller i mangel af bedre fejlsetup.
ALT skal være redundant - SAN switche og strøm til serverrum skal fødes af uafhængige strømkilder.

I det her tilfælde, er det ikke strømudfaldet i sig selv, der er problemet, men selve setuppet af SAN/storage.
Det er endnu et eksempel på, at nedbrud kan undgåes, hvis man vil, ved simpelthen at lave tingene ordentligt - første gang.

  • 0
  • 0
dan poulsen

Jeg enig at de lokale forsyningsforhold skal tages i betragtning når man anvender store ups-systemer.
Men jeg er ikke sikker på at lovgivning alene kan løse problemerne, de er ofte mere komplekse end man kan lovgive sig ud af.
I Tanzania er Det typiske scenarie direkte omvendt af det PH nævner i USA : Ved udfald starter mange forbrugere deres nødstrømsgeneratorer, når forsyningen vender tilbage er der stort set ingen belastning på nettet så spænding og frekvens er vokset til astronomiske højder. jeg har fanget en sådan situation på min datalogger:

http://www.nordicschool.net/downloads/JustAnotherDay.pdf

En ups løsning er ikke en "of the shelves" løsning, som mange fejlagtigt tror.
Mange gange glemmer/spare man også den store røde mekaniske omskifter så man kan udkoble en fejlbehæftet ups, og tvangsindkoble by forsyningen, og hvis den er installeret glemmer man at instruere it folkene hvordan den anvendes :-)

  • 0
  • 0
Poul-Henning Kamp Blogger

En ups løsning er ikke en "of the shelves" løsning, som mange fejlagtigt tror.

Det er den naturlige konsekvens af at have (haft) et velfungerende og stabilt elnet i 50 år...

Men lad os se hænderne: Hvor mange har efter denne lille demonstration af behovet sat en test af UPS/generator på planen i denne uge ?

Og hvis ikke, er det fordi I er bange for resultatet af testen ?

Hvad nytte er en UPS(+generator) hvis man ikke tør stole på dem ?

Poul-Henning

  • 0
  • 0
dan poulsen

Helt enig, men full-scale afprøvning ikke risikofrit det måtte Odense Universitetshospital erkende da hele huset var uden støm i knap ½ time november sidste år under en afprøvning, Supernøden var også berørt....

http://www.energifyn.dk/energifyn/om-energifyn/Presse/nyheder/nyhed.aspx...

Det var ikke mange hænder der røg op.... hvis man ikke vasker op så smadre man heller ingen talerkner.

Min erfaring siger at mindst 1% af gangene man tester sin nødstrøm er der noget der går galt. Man kan så teste i lavlast perioden (natten) men det giver bare ikke et reelt resultat.

  • 0
  • 0
Hans Schou

Vores telefoner går straks over på nødstrømsanlæg når atomkraftværket i Oskarshamn og andre steder går ned.

Alle telefoner er mobiltelefoner. Det er vel i dag så lavteknologisk det kan blive. Nuvel, vi er så få på kontoret at et omstillingsbord ikke er nødvendigt - vi giver blot mobilen videre til en anden, når der bliver ringet på "hovednummeret".

  • 0
  • 0
Poul-Henning Kamp Blogger

Alle telefoner er mobiltelefoner.

Det hjælper måske i din ende, men det forudsætter at alle mobilmasterne har et virkende nødstrømsanlæg.

En af de ting man fandt ud af i forbindelse med Katrina orkanen i USA var at det holdt folk ikke øje med.

To blybatterier blev kylet ned i bunden af skabet og så videre ud over stepperne.

Jeg kan ikke huske hvad kravet er til nødstrøm til basestationer i her i landet, jeg kan kun huske at da jeg endelig fandt det, tænkte jeg "det var ikke lang tid".

Poul-Henning

  • 0
  • 0
Anders Johansen

Det hjælper måske i din ende, men det forudsætter at alle mobilmasterne har et virkende nødstrømsanlæg.

En af de ting man fandt ud af i forbindelse med Katrina orkanen i USA var at det holdt folk ikke øje med.

To blybatterier blev kylet ned i bunden af skabet og så videre ud over stepperne.

Jeg kan ikke huske hvad kravet er til nødstrøm til basestationer i her i landet, jeg kan kun huske at da jeg endelig fandt det, tænkte jeg "det var ikke lang tid".

Er det ikke 30 minutter eller noget deromkring?

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize