Ingen vej tilbage: DMI's it-folk står klar til at løse problemer med ny supercomputer

Sådan ser den nye Cray-supercomputer ud efter installationen i det islandske datacenter. De to klynger er vandkølet og yderst til venstre står storagesystemet. Foto: Thorvaldur E. Sigurdsson
Klokken 10:00 onsdag er der tændt for den metaforiske kontakt til DMI's nye supercomputer i Island, og der er ingen mulighed for at rulle systemerne tilbage, hvis noget går galt.

I den seneste måned er der ikke implementeret ændringer i DMI's modeller, mens HPC-projektgruppen hos DMI på Lyngbyvej i København har gjort klar til den store operation, der begyndte klokken 10:00 onsdag. Der blev den nye supercomputer i Island taget i brug, og de næste tre dage vil vise, om operationen er lykkedes.

Mens supercomputeren i Island har kørt i test længe, så er den kritiske del af flytningen at få DMI's hundredevis af systemer til at pege på det centrale system, der nu henter data fra den supercomputer.

»Mange af legacy-systemerne har navne kodet ind, så det ville ikke gå, hvis navnet var to steder. Derfor har vi brugt tid på at lave klar til at kunne skifte. Vi ændrer i DNS'en, så systemerne gerne skulle tage data fra det nye system,« siger CIO Thomas Kjellberg fra DMI til Version2, da vi besøger kontoret tirsdag eftermiddag før den store operation.

Kontoret fungerer de næste tre dage som kommandocentral, hvor de ansvarlige for de forskellige systemer melder ind, om deres modelkørsler har kørt som planlagt og alle data er lagret korrekt. Hvis ikke, bliver der oprettet en ticket i supportsystemet, som teamet så prioriterer.

»Vi prioriterer, så folk får tid til at rette det, der skal rettes,« siger Thomas Kjellberg.

Han har udskrevet en køreplan for hver dag på DMI's storformatprintere med et overblik over, hvilke modeller der kører hvornår. Kørslerne er fordelt over hele døgnet, og nogle kører hyppigere end andre. Hvis alt går som det skal, får hver kørsel en grøn markering på planchen. En rød markering betyder, at der er et problem.

HPC-projektleder Bjarne Keinicke og foran ham CIO Thomas Kjellberg gennemgår de sidste detaljer i processen få minutter før skiftet fra Lyngbyvej til Island gik i gang onsdag kl. 10. Foto Carsten Kofoed.

Kan ikke rulle tilbage

Selv hvis den røde tusch får travlt, så er der ingen hændelser, der kan afbryde processen, for der er ingen vej tilbage.

»Vi ruller ikke tilbage, for det switch, vi laver, er ikke reversibelt. Det skal virke. Så derfor har vi brugt lang tid på at teste det,« forklarer Thomas Kjellberg.

Selve skiftet har det dog ikke været muligt at teste. Det ville have krævet opbygning af et parallelt testsystem, som ville have været en enorm omkostning. Derfor har DMI i stedet fokuseret på at teste de enkelte delprocesser og forberede sig på, at noget går galt.

»Vi har hundreder af systemer, så der skal nok være noget, der hikker,« fastslår Thomas Kjellberg.

Den nye supercomputer ankommer til Island. Foto: Thorvaldur E. Sigurdsson

Den gamle supercomputer kører videre efter skiftet, selvom den altså ikke kan fungere som fallback, hvis noget går galt. Den holdes derimod kørende for at sikre, at der ikke er efternølere blandt systemerne.

»Vi lader den gamle køre for at se, hvem der prøver at kalde den. Det kunne for eksempel være et dødt produkt, vi ikke længere bruger, og det vil være ok. Eller det kan være et system, vi har glemt. Derfor venter vi til fredag, før vi slukker helt,« forklarer Thomas Kjellberg.

Redundans og rollebyt

Den nye supercomputer består af to ens klynger af Cray-computere forbundet til et centralt storagesystem. Den ene klynge bruges til test og udvikling, mens den anden står for den normale operationelle drift.

Når driftsklyngen går ned, bliver udviklingsklyngen forfremmet til at være den nye driftsklynge og kører videre. Når den gamle driftsklynge er oppe igen, bliver den ny testklynge. På den måde skal der ikke laves unødvendige skift mellem de to klynger.

Læs også: Sådan købte DMI ny supercomputer: Oppetid og ydelse vigtigere end specifik hardware

Mens placeringen i Island giver vandkraft og billig køling, så betyder det også, at der lige nu kun er to dataforbindelser mellem DMI i Danmark og datacentret på Island.

»Vi har sendt data siden en gang før sommerferien sidste år for at simulere vores pakkestrømme. Jeg tror, den ene forbindelse er røget to gange, og der har vores failover fungeret helt, som det skulle,« fortæller Thomas Kjellberg.

Installationen af supercomputeren i det islandske datacenter. Foto: Thorvaldur E. Sigurdsson

De fleste data ligger på Island, hvor systemet sørger for at sende opdateringer til et tilsvarende system i Danmark. Det er dog ikke alle data, der skal sendes over de to 10 gigabit-forbindelser, da mange af de applikationer, der laver DMI's mange produkter, bruger output fra andre kørsler. Derfor kan de ligge i Island og så nøjes med at returnere det færdige resultat.

Skulle begge internetforbindelser ryge, vil DMI i Danmark have data liggende lokalt til at kunne levere flere af produkterne i et stykke tid.

I 2012 blev DMI ramt af et længerevarende nedbrud på grund af en fejludløsning af brandslukningssystemet, som ødelagde flere systemdiske i supercomputeren. Her var DMI nødt til at flytte visse modelkørsler til en supercomputer i Storbritannien. Det redundante setup i Island og med data og backup i Danmark skal mindske risikoen for en gentagelse.

Læs også: Usandsynlig kædereaktion blæste væg og DMI's supercomputer omkuld

Noget vil gå galt

Thomas Kjellberg er forberedt på, at noget vil gå galt, når den nye supercomputer tager over onsdag. For supercomputeren er blot én stor brik i en endnu større arkitektur af systemer hos DMI.

»Vi har cirka 300 servere, og supercomputeren er blot én af dem. Der er så mange ender, at noget vil falde mellem to stole,« siger han.

Derfor er it-afdelingen parat til travlhed, og det er også grunden til, at skiftet falder på en onsdag.

»Vi vil ikke lægge sådan noget på en mandag, for vi vil godt have føling med, hvordan systemerne kører,« siger Thomas Kjellberg.

Tanken er, at lige efter en weekend tager det lidt tid for alle at komme ind i rytmen igen. Derfor ville han helst have foretaget det store skift på en tirsdag, men der er også en række eksterne faktorer, der skal tages hensyn til.

Det gælder også vejret. En kraftig snestorm kunne både give travlhed mange steder hos DMI og gøre det svært for medarbejdere at nå frem.

Samtidig er der eksterne leverandører af data til systemerne, hvor en stor dataleverance tirsdag i denne uge var årsagen til, at skiftet endte med at blive onsdag.

Det er først fredag, at DMI forhåbentligt kan melde alle systemer klar efter skiftet. Kalenderen er ryddet det næste stykke tid for at sikre tid til at løse problemer, men selvom DMI's it-folk har forberedt sig på problemer, så lyder svaret alligevel 99,9 procent, når de skal vurdere, om alt går som planlagt.

»Hvis alt er grønt klokken 17 onsdag, så går vi nok hjem, men vi vil nok sove med telefonen ved siden af os,« siger Thomas Kjellberg.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Følg forløbet

Kommentarer (4)

Michael Jensen

Jeg bruger som regel udenlandske vejrtjenester, der er mere præcise end DMI.
Men hvis vejr-kunderne svigter, kan de vel altid lave DMI_IT, nu de har investeret i regnekraften... :-)

Brian Højen-Sørensen

Hvilke udenlandske vejrtjenester er det, der har bedre (mere præcise) modeller for Danmark end DMI?

Vil mene at de eneste der kommer tæt på er yr.no og smhi.se, men jeg tror aldrig jeg har set nogen rapport der viser at de er bedre i Danmark end DMI.

Det er så rent teknisk også de samme modeller der bruges (HIRLAM og Harmonie/Arome) hos alle tre institutter, bare "tunet" til hver deres område.

Brian Højen-Sørensen

Det håbede jeg at det var. Yr.no laver en god prognose (faktisk sammen med smhi.se i sverige) for Skandinavien, de bruger den model DMI er ved at skifte over til (Harmonie/Arome).

Jeg vil dog primært sige at yr.no og smhi.se begge præsenterer deres prognoser bedre end DMI, hvilket ofte giver et indtryk af at prognosen er bedre.

Når det er sagt så er jeg (også uden at have set hårde facts), ret sikker på at DMI er lige så gode som Norge og Sverige meteorologiske institutter, og når de går all in på den nye model (med den nye computer på Island), så bør de være bedre i Danmark, da det er det modellen bliver optimeret til.

Log ind eller opret en konto for at skrive kommentarer