Sådan købte DMI ny supercomputer: Oppetid og ydelse vigtigere end specifik hardware

Illustration: Cray Inc.
I stedet for at kræve et bestemt antal processorer valgte DMI at stille krav til ydelse, oppetid og pris. Det giver nu DMI en ny todelt supercomputer, der skal stå på Island.

DMI får i første omgang en ny supercomputer, der cirka vil tredoble regnekraften i forhold til den supercomputer, der nu står i DMI's maskinstue på Østerbro i København. Men det er blot første trin i en totrinsopgradering, som drastisk ændrer DMI's brug af supercomputerkraft.

Den nye supercomputer fra det amerikanske computerleverandør Cray kommer nemlig til at stå i en jordskælvssikret tidligere forsvarsbygning i Reykjavik på Island og vil midtvejs i den femårige levetid få en kraftig opgradering.

»Vi har indgået et strategisk samarbejde med det islandske meteorologiske institut, IMO, og i Island kan vi få 100 procent grøn energi til en god pris. Hvis den skulle stå i Danmark, kunne vi ikke få så stor en computer. Der er koldt året rundt i Island, så det er ikke mange timer om året, vi bliver nødt til at køle med kompressorkøling,« forklarer CIO Thomas Kjellberg fra DMI til Version2.

Læs også: Ny supercomputer til DMI kan åbne for mere avanceret vejrmodel

Supercomputeren kommer til at levere prognoser fra vejrmodeller til både Island og Danmark. Placeringen i Nordatlanten betyder dog, at der skal flyttes betydelige datamængder fra det islandske datacenter til meteorologerne i Danmark.

Læs også: DMI: Mere regnekraft er ikke nok til at forudsige skybrud

»Island ligger supergodt, fordi det er et knudepunkt for mange af de transatlantiske internetlinjer, så vi får to redundante linjer hertil via de nationale forskningsnet. Vi skal sende rigtig meget frem og tilbage, fordi vi beholder backuppen her på Østerbro,« forklarer Thomas Kjellberg.

Hvis data fra den nuværende supercomputer hos DMI skulle overføres på samme måde, ville det være cirka én terabyte i døgnet, som skulle flyttes mellem Island og Danmark.

»Det kræver ikke så meget netværk - og så alligevel, for data genereres i peaks. Men med vores nuværende produktionsmønster ville vi i dag kunne klare os med 1 gigabit/s. Nu får vi lige om lidt mere regnekraft, så der kommer også mere data, men to redundante 10 gigabit/s linjer vil være tilstrækkeligt,« siger DMI's supercomputerekspert Thomas Lorenzen til Version2.

Ikke plads til nedbrud

Redundans er et nøgleord for den nye supercomputer. Computermodellerne fungerer nemlig på den måde, at den foregående tilstand er nødvendig for udregningen af den næste. Hvis supercomputeren går ned og ikke kan lave modelkørsler for et døgn, så kan man ikke blot lave kørslerne for det næste døgn, når computeren er oppe igen. Man er nødt til at indhente de kørsler, der ikke kunne køres på grund af nedetiden.

Derfor har redundans været ét af hovedkravene i udbuddet om den nye supercomputer.

»Vi havde bogstaveligt 117 krav. Det var funktionelle krav, ikke tekniske, hvor vi har beskrevet de behov, vi har,« forklarer Thomas Kjellberg.

Kravene har i store træk dækket pris, oppetider og benchmarks for afvikling af vejrmodellerne. En af udfordringerne har været, at supercomputeren skal kunne løse DMI's behov i mindst fem år, og det endte derfor med en totrinsmodel, som inkluderer en opgradering af supercomputeren i slutningen af 2017.

»Det, Cray har tilbudt os, er faktisk to supercomputere, fordi vi skal kunne lave vedligeholdelse. Og i 2018 får vi en opgradering, som ikke er en viderebygning, men en udskiftning af de to supercomputere,« forklarer Thomas Lorenzen.

De to halvdele af den nye supercomputer kan således udskiftes forskudt, så den ene af de gamle computere kan kobles fra og den nye sættes til, mens den anden halvdel fortsat kører modelkørslerne. Når den ene nye computer er klar, kan den stå for kørslerne, mens den anden af de gamle computere skiftes ud.

Den første udgave af den nye supercomputer vil have en samlet regnekraft på cirka 192 teraflops for de to dele tilsammen. Det svarer cirka til en faktor tre i forhold til den supercomputer, DMI i dag råder over. Opgraderingen vil, når den er gennemført i begyndelsen af 2018, give DMI en regnekraft på cirka 700 teraflops samlet. Til sammenligning har verdens p.t. stærkeste computer - den kinesiske Tianhe-2 - en regnekraft på 33.862 teraflops.

Læs også: Kina indtager supercomputer-tronen med 3,1 millioner kerner og 33.862 teraflops

»Det bliver en væsentligt mere tæt pakket maskine i 2018. Vi får Intels nyeste processorer, som vil have mellem 20 og 28 kerner. Derfor vil der også være mere hukommelse pr. beregningsnode,« siger Thomas Lorenzen.

Den præcise bestykning af opgraderingen vil afhænge af, hvilke processorer der er til rådighed, som kan opfylde DMI's krav til benchmarks, samt hvilke modeller Intel kan levere på det pågældende tidspunkt.

Hver af de to halvdele af første etape af supercomputeren bliver et Cray XC-30-system med 280 beregningsnoder med hver to Intel-processorer med otte kerner og 64 gigabyte hukommelse. Derudover har hvert system 16 'general purpose'-enheder, med 128 gigabyte hukommelse.

I anden etape bliver systemet opgraderet til 152 beregningsnoder med to processorer, som formentlig vil være Intels Skylake-arkitektur, og udstyret med 192 gigabyte hukommelse. Dertil kommer otte general purpose-enheder.

Ét storagesystem er nok

Supercomputeren bliver suppleret med et Lustre-baseret storagesystem fra Cray med en kapacitet på 1,3 petabyte. Der bliver kun ét system, som til gengæld har indbygget redundans.

»Vi har købt en forpligtelse af Cray for oppetid, og de vil give garanti med bare ét system. På vores eksisterende supercomputer har vi også kun ét system, og det har vi gode erfaringer med. Hvis man har to systemer, så skal man også sikre, at de er synkroniseret, så mere isenkram er ikke nødvendigvis den hellige gral, fordi det kan øge kompleksiteten,« siger Thomas Lorenzen.

Storagesystemet vil således også være det samme i hele supercomputerens levetid. Planen er foreløbig fem års drift, men DMI har fået indbygget muligheden for at få support i yderligere et sjette og eventuelt et syvende år, hvis det bliver nødvendigt.

Og det kan det blive, fordi der lige nu arbejdes på at etablere et fælles nordisk samarbejde om næste generation. I så fald kan det blive nødvendigt for DMI at køre videre lidt længere end de fem år, der er normal praksis i branchen, fordi et eventuelt skifte til en fælles supercomputer vil afhænge af, hvornår de nordiske kolleger er klar.

Driften af den nye supercomputer bliver delt mellem Island og Danmark. Islændingene vil stå for det, der kræver fysisk adgang til supercomputeren, mens DMI's folk vil overvåge supercomputeren fra Danmark og blandt andet kunne se via webkameraer, hvis der er noget unormalt i datacentret.

Komponenterne til selve datacentret, hvor supercomputeren skal stå, har været igennem en række selvstændige udbud, hvor DMI har kunnet udnytte sin særlige ekspertise til at bringe prisen ned.

»Vi sidder med en masse klimadata. Så vi kan se på temperaturerne i Island og lave en profil, hvor leverandørerne så skulle give os de laveste samlede omkostninger,« fortæller Thomas Kjellberg.

Fordi oppetid er det vigtigste krav, er kølesystemet beregnet til at kunne køle supercomputeren med traditionel kompressorkøling. I praksis vil det dog være frikøling, som er tilstrækkeligt det meste af året.

Helt så enkelt er det dog ikke, fordi frikøling ved høje temperaturer kan betyde, at blæserne skal flytte mere luft, og dermed bruger de mere strøm. Så DMI ønskede at vælge det kølesystem, der i forhold til klimamodellen kunne ramme den mest økonomiske balance mellem frikøling og kompressorkøling.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (1)
Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017
Jobfinder Logo
Job fra Jobfinder