Internt notat dømmer it-beredskabet på Københavns Universitet som mangelfuldt

Beredskabshåndteringen af it på Københavns Universitet er til tider mangelfuld, og konsekvenserne af det nylige nedbrud kunne have været undgået. Det viser et notat som Version2 har fået indsigt i.

Mandag den 9. januar havde Københavns Universitet store problemer på it-fronten. Flere diskfejl i en gammel storageenhed fik samtlige tilknyttede it-systemer til at gå ned. Sådan lyder det i et notat på hændelsen, som Version2 har fået indsigt i.

Læs også: Serverfejl sender Københavns Universitet i sort hele dagen

”De samlede konsekvenser set fra et brugerperspektiv var således, at størstedelen af it-systemerne på KU var utilgængelige fra mandag kl. 5:50 til tirsdag formiddag, med enkelte services utilgængelige yderligere dage efter,” står der i notatet.

Nedbruddet gik særligt ud over brugerne af systemet - altså primært de studerende, som i mange tilfælde stod og skulle aflevere eller hente beskrivelser af eksamensopgaver. Således konkluderer notatet, at ”kommunikationen til den brede brugerskare på KU” ikke var tilfredsstillende.

I notatet fremgår det, at beredskabshåndteringen på Københavns Universitet til tider var mangelfuld. Det skyldes, at der ikke alle steder i organisationen er "klare planer og udmeldinger omkring hvordan medarbejdere og studerende skulle forholde sig uden tilgængelige it-systemer”

»Når jeg hører, studerende brokker sig over forløbet, må der være noget galt med beredskabet. Det har ikke været godt nok, og det gælder i særdeleshed kommunikationen fra Universitetet,« siger Bo Bendsen til Version2, vicedirektør for koncern-it på Københavns Universitet.

For Bo Bendsen betyder det, at de i fremtiden skal have helt klare regler for, hvordan krisesituationer håndteres kommunikationsmæssigt. For eksempel ved at informere de studerende om, at der i sådanne tilfælde kommunikeres via sociale medier.

Kølingsfejl gav problemer

Københavns Universitet har igennem de seneste år været i gang med et stort projekt om både at virtualisere og fysisk rykke servere. Planen er, at der skal stå en række servere på Panum-instituttet, som spejles til servere, der er placeret på Københavns Universitet Amager. Dermed vil der være redundans i form af RAID i enhederne, redundante data serverne imellem og redundans i form af spejling til en anden fysisk placering, så forhold som oversvømmelse eller strømafbrydelse på en lokalitet ikke sætter systemerne til tælling.

Men flyttearbejdet er ikke overstået endnu, og derfor var det et utroligt uheldigt tidspunkt, fejlen ramte på. Redundansen skulle netop benyttes til at sikre kritiske komponenter såsom DNS, står der i notatet.

Allerede om fredagen var der problemer med en ældre HP EVA 8100-storageenhed, som blev dømt udskiftningsmoden. I løbet af weekenden blev de mistænkte komponenter udskiftet, og der var i weekenden ingen indikationer af defekte diske, fremgår det af notatet.

Alligevel stod hele fire diske af på én gang i storageenheden klokken 5:50 mandag morgen.

»Der var problemer med enheden om fredagen, men der var ikke noget, der tydede på, at diskene var ved at stå af,« siger Bo Bendsen til Version2 og fortsætter:

»Vi har ligesom alle andre virksomheder med servere ofte alarmer, hvor fejlene efterfølgende rettes hurtigt. Og når diske jævnligt skiftes ud, undgår man som regel nedbrud.«

Notatet konkluderer, at den sandsynlige årsag til, at hele fire diske stod af på én gang var en systemfejl, der anslås at kunne henføres til varmeoverbelastning i forbindelse med tidligere kølingsproblemer på enheden. Bo Bendsen fortæller, at der var problemer med serverrummet på Nørregade, og at det måske kan have skadet diskene allerede dengang.

DNS fik det hele til at stå af

At universitetets DNS var utilgængeligt som følge af diskfejlen var netop årsagen til, at nedbruddet fik så vidtrækkende konsekvenser. Det slog simpelthen luften ud af den redundans, der allerede var etableret mellem flere kritiske elementer af universitetets it.

Notatet konkluderer blandt andet, at systemer som KUmail og KUnet kunne have kørt videre med ”manuel switch over til KUA”, hvis ikke det havde været fordi både DNS og integrationsplatformen var lagt ned. Det manuelle skift havde simpelthen ikke haft nogen konsekvens for brugerne, når de elementer ikke kørte, står der i notatet.

Havde Københavns Universitets DNS været opbevaret ude af huset, ville det netop ikke blive berørt af den slags nedbrud. Og så er der mange udbydere på DNS-markedet, hvoraf nogle endda er gratis.

Bo Bendsen fortæller, at det hovedsageligt er af historiske grunde, at DNS administreres lokalt, men oså fordi universitetet anvender DNS-serverne til navneopslag på interne domæner, der eksempelvis bruges til integrationer af systemkomponenter.

Backup forløb godt

På trods af de uheldige omstændigheder, en fejlslagen kommunikationsindsats og mange berørte it-systemer var det dog ikke alt, der ikke virkede som det skulle. Således konkluderer notatet, at gendannelse fra en backup placeret hos UNI-C i Lyngby fungerede upåklageligt og at ”store mængder data blev restoret på relativ kort tid”.

»Det er en succes at gendannelsen gik godt. Når det endelig skulle gå galt, var det godt at vi kunne komme så hurtigt op igen. Det er et bevis på, at den strategi og arkitektur vi har valgt, giver mening,« siger Bo Bendsen til Version2.

Bo Bendsen fortæller, at beredskabsplanerne vil blive strammet op og at der samtidig vil være områder i rykningen af servere, der prioriteres højere end andre.

Følg forløbet

Kommentarer (8)

Peter Nilsson

Jeg kan se at ITU benytter GratisDNS.dk som backup til itu.dk domænet, det var måske en ide, så får man 5 ekstra DNS servere som backup helt gratis og de er spredt på forskellige lokationer. Har man det dårligt med at bruge en gratis service, så kan man jo overveje at donere udstyr eller penge til den tjeneste man benytter.

Ove Andersen

Sandt, men GratisDNS.dk vel ikke rigtigt hjælpe på, at KU benytter interne DNS servere, fordi de har nogle interne adresser der skal kunne slås op?

Det vil betyde en større omstrukturering (som måske var berettiget), hvis de skulle sikre der ikke pludselig var brister ved at flytte alt ud af huset.

Peter Nilsson

Det har du ret i, måske de har virtualiseret som i de fleste virksomheder og begge interne dns servere ligger på samme SAN og det er derfor man er sårbar.

Det kunne løses med en standard skod PC som sekundær DNS med FreeBSD eller Linux som står uden for det virtuelle miljø eller bare adskille dem når de splitter deres miljø op for at forebygge fejl i fremtiden.

Poul-Henning Kamp Blogger

Da KU valgte at centralisere alt muligt IT var det primært for at spare penge, selvom det var forskellige andre floskler der blev brugt.

Når man kommer alle sine æg i samme kurv, skal der en bedre kurv til.

Det koster penge.

Bestyrelsen burde undersøge det samlede resultat og dokumentere det for offentligheden, så danmarks offentlige myndigheder og erhversliv kan blive klogere.

For KU er der da for at skaffe ny viden, ikke ?

Klaus Skelbæk Madsen

Sandt, men GratisDNS.dk vel ikke rigtigt hjælpe på, at KU benytter interne DNS servere, fordi de har nogle interne adresser der skal kunne slås op?

Det ville da i det mindste give mulighed for at informere brugerene om nedbrud via de berørte sider. Selv med manglende intern DNS, skulle maskinerne være i stand til at vise en statisk HTML side.

Derudover er en uvane at forvente at brugere søger informationer om nedbrud på sociale netværk. Det er vel ikke et krav for at studere på KU at man har en Facebook konto?

Leif Neland

Derudover er en uvane at forvente at brugere søger informationer om nedbrud på sociale netværk. Det er vel ikke et krav for at studere på KU at man har en Facebook konto?

Der er dog en hønen-og-ægget effekt her.
Det er lidt svært at informere om at det system, der skal informere om at systemet er nede, når det system er nede :-)

Men det kan være svært at få fortalt brugerne: Hvis dette system er nede, så se her:

Christian Thoudahl

... da det er længe siden jeg har arbejdet med datanetværk.

Men hos DK-Hostmaster angiver man tre navneservere, som gerne skulle blive kontaktet i prioriteret rækkefølge når man forsøger at tilgå domænet.
Så når man forsøger at tilgå ku.dk hiver man først fat i garm.adm.ku.dk, dernæst ns-soa.darenet.dk og hvis disse to fejler prøver man med: quark.adm.ku.dk.
(ret mig hvis jeg tager fejl så langt)

Hvad ville der så ske hvis man som tredieprioriet henviste til en navneserver der henviste til en ekstern side med "undskyld vi roder"?

Log ind eller opret en konto for at skrive kommentarer

JobfinderJob i it-branchen