Ekspert om 322 fejlede tests ud af 500 på milliondyrt norsk HPC-monster: »surrealistisk« og »ekstremt«

Illustration: vladimircaribb/Bigstock
Der har været teknisk bøvl med performance på Norges nyeste og største supercomputer, Fram. Den tekniske årsag til miseren var amerikanske switche.

Den 1. november 2017 gik supercomputeren Fram, der er installeret på Universitetet i Tromsø, i produktion. Men regningen blev ikke betalt, efter at der opstod en række alvorlige problemer i testfasen af monsteret til næsten 60 millioner norske kroner. Nu er dommen klar, og den er ikke sjov læsning for leverandøren.

Den 1. juli 2016 blev kontrakten – til en værdi af 58 millioner norske kroner – mellem det norske statsejedeselskab Uninett, der driver den statslige forskningsinfrastruktur i Norge, og Serit IT Partner i Tromsø underskrevet. Det norske selskab vandt den eftertragtede kontrakt om at levere High–performance computing–anlægget (HPC).

32.256 kerner

Universitetsmiljøerne i Norge jublede. Endelig ville de få tilstrækkelig datakraft til at arbejde med de mest ressourcekrævende projekter.

I april 2017 – 45 dage efter aftalt levering – mente Serit IT–partner, at de var færdige med installeringen af Fram.

Her opstår konflikten. HPC-parken leverer 1,1 petaflop med teoretisk ydelse – eller mere end én million milliarder floating point-beregninger i sekundet.

Fram består af 1.006 Lenovo Nextscale-servere med tilsammen 32.256 Intel-kerner. I alt har Fram 78 terabyte intern hukommelse og to og en halv petabyte lagringsplads. Systemet har også opkoblet 16 Nvidia K80-acceleratorer.

Vanskelig levering

Det gør Linux-klyngen – som er opkaldt efter båden, eventyreren Fridtjof Nansen brugte på ekspeditionen til Nordpolen – til Norges uden sammenligning hurtigste supercomputer.

Men som tilfældet var med Nansens ekspedition, var leveringen af supercomputeren Fram besværlig og vanskelig. Uninett er nemlig ikke tilfreds med opkoblingen af monsteret. Det skyldes en række problemer, som er opstået med HPC-anlægget efter installationen.

Uninett mener, der har været store udfordringer med den performance, som Fram leverer. Ifølge en dom fra Sør-Trøndelag ret viste det sig, at supercomputerens ydelse hurtigt faldt med op til 90 procent, sammenlignet med hvordan den opførte sig lige efter installationen.

345 test fejlede

En række tests viste, at topydelsen varierede stort. I alt blev der udført omkring 500 tests gennem en periode på ni måneder. I alt fejlede 345 tests, angives det. De første logførte Uninett-tests blev gennemført 9. og 10. januar 2017.

Fram består af 1.008 NextScale-servere som denne fra Lenovo. Supercomputeren optager omkring ti meter serverrack. Illustration: Lenovo

Ved den første test blev der opnået en ydelse på 95 procent, mens samme test nogle timer senere viste en opnået ydelse på 69 procent af maks.-kapaciteten.

Disse variationer var meget større, end hvad der er normalt under tests af HPC-anlæg, hedder det i dommen fra tingretten.

Specialrådgiver Jørn Amundsen i Uninett forklarede i Sør–Trøndelag tingret, at der ofte er en del ekstraarbejde med test og indkøring af denne type supercomputere, men at resultaterne af de tests, han genemførte, var »ekstreme«, og noget han aldrig havde oplevet tidligere.

Problem med switche

Til sidst viste det sig, at ydelsesproblemerne skyldtes problemer med IB-switche, som koblede noderne i Fram sammen. Disse switches gør, at serverne kan snakke sammen – uden fungerende IB er Fram intet andet end en stor bunke med servere.

Switchene var leveret af det amerikanske selskab Mellanox Technologies. Ifølge en rapport herfra var de ramt af en kondensatorfejl.

Powerflapping

It-partneren mener, fejlen skyldes en strømtest, som Uninett selv gennemførte. Ud over fejlen på kondensatorer mener de også, at Uninett har udført uautoriseret CentOS-opgraderinger på Fram. Sammenlagt har disse forhold være udslagsgivende for, at Fram udviste reduceret performance i lang tid, mener Serit IT–partner. Men de forklaringer køber tingretten ikke.

Strømtesten, som Uninett tog initiativ til, førte til at HPC-anlægget blev udsat for en varierende spændingskurve – eller 'powerflapping' – i flere minutter. Ifølge Serit IT–Partner opstod denne fejl i strømforsyningen til datacenteret og var ultimativt med til at skade IB-switchene. Retten afviste argumentationen.

I afgørelsen skriver dommerne Brynjulf Moe, Petter Erling Bjørstad og Ragnar Holtan at: »der opstod ingen umiddelbare skader på øvrigt udstyr og komponenter, som var direkte tilknyttet generatorerne« (...) »Skader og fejl, som opstod senere end foråret 2017 var imidlertid kun relateret til Mellanox–switcher. Det er ikke meldt om fejl på andre type switcher, elektroniske komponenter eller elektrisk udstyr«.

Byttede 99 meget dyre switche

Alene i april svigtede 12 IB-switche fra det amerikanske selskab i løbet af en periode på 14 dage, mens yderligere ni switcher blev udskiftet i maj som følge af samme type udfordring.

I Mellanox–rapporten konstaterer selskabet, at produktionsfejlen på de aktuelle switche ville begynde at vise sig efter mellem tre og otte måneder. Tingretten skriver, at det »var samtidig med, at fejlene begyndte at vise sig i april«.

I sommeren 2017 var alle 99 Mellanox-switche udskiftet. Stykprisen på 22.000 dollars lyder måske overvældende for mange. Efter udskiftningen gik HPC-anlæggets ydelse stejlt opad.

Specialrådgiver Jørn Amundsen i Uninett gennemførte flere tests i slutningen af august 2017 og kunne da konstatere, at Fram leverede »topydelse«.

Vandlæk

Når det gælder den uautoriserede opdatering af CentOS, mener tingretten, at det ikke er sandsynliggjort, at Uninetts egne opdateringer til ny, ikke-certificeret software har haft direkte påvirkning på leveranceproblemerne med Fram.

Der er »(...) lagt væsentlig vægt på, at der ikke er ført noget bevis for, at det har været opdateringer, som har medført andet end ganske kortvarige og marginale implementeringsproblemer«, skriver dommerne.

Ud over ydelsesproblemerne med Fram har der også været problemer omkring projekteringen af HPC-anlægget. Da Fram blev koblet op, blev der hurtigt afdækket lækage i supercomputerens køleanlæg.

Måtte lukke Fram i to uger

Uninett mener, at leverandøren Serit IT–partner selv er skyld i lækket, og begrunder det med, at Tromsø-selskabet havde gjort et dårligt materialevalg i projekteringen. Lækket blev opdaget i plastrørene, som skulle sørge for, at anlægget fik nok køling.

Rørene blev først erstattet med nye plastrør, men løsningen viste sig efterfølgende ikke at være god nok. Fram måtte derfor lukkes ned nogle uger i sommeren 2017 for at skifte rørene af plast ud med kobber.

Uninett mener, at udbedringen ikke udgjorde en væsentlig ændring af leverancen, og argumenterer for, at ændringen skyldes en mangel, Serit IT–partner selv må stå til ansvar for.

Tingretten gav Uninett medhold også i dette punkt og mener, at forsinkelsen reguleres af aftalen mellem parterne.

Dette er en forkortet udgave af en artikel fra digi.no.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (3)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Troels Henriksen

Det er noget lort med kondensatorfejl på switches, men dette får mig nu til at spærre øjnene op:

Systemet har også opkoblet 16 Nvidia K80-acceleratorer.

Hvorfor have GPUer hvis man kun har så lavt et antal? Så er det jo ikke engang hver knude der kan nå en. En enkelt K80 kan ifølge NVIDIA nå 2,91 TFLOPS i dobbeltpræcision, så 16 af dem giver 46,6 TFLOPS - og det er ret gavmildt sat. I alt er det 5% af maskinens angivne topydelse. Er det virkelig besværet værd at indføre en heterogen programmeringsmodel for at få 5%?

Hans Nielsen

Det er noget lort med kondensatorfejl


Og ganske typsik når der skal spares lidt håndhøre, så der kan udbetales bonuser.

Den ansvarligt er jo længe rejst med sin bonus, når fejlene opstår og køre firmaet i sænk. Det er også dumt at bruge ikke lakeret SMD kondensatore, som ikke kan tåle fugt, i ting som skal side i en bil.
Der kan dog sikkert spares 5-10 øre per 10000 stk.

Det er nu ikke kun dem, som har oplevet at det kan være dyrt at spare.
Og derfor at Mobo stadig sælges med et salgsargument som
"førsteklasses solide japanske kondensatorer"

Log ind eller Opret konto for at kommentere
Brugerundersøgelse Version2
maximize minimize