Så voldsom er storage-udfordringen i Cern: 45 petabyte data og 68.000 diske
Den gigantiske partikelaccelerator LHC, som det internationale forskningscenter Cern driver, er i sig selv en imponerende konstruktion, med sin bane på 27 kilometer og de 10.000 store superledende magneter, som bliver kølet ned til lige over det absolutte nulpunkt af 120 ton flydende helium.
Men uden en voldsom muskel til databehandling og storage ville forsøgene være umulige at få noget ud af, og derfor er netop data-delen af operationen for første gang i fysik-miljøet blevet anerkendt som en helt essentiel del af arbejdet.

Det fortalte Dirk Düllmann, Cerns souschef for data og storage, onsdag på udviklerkonferencen Goto i Aarhus.
»Et forsøg giver 30 petabyte data, og de kommer gennem databehandling og bliver klar til brug et par uger efter forsøget. Det kunne slet ikke lade sig gøre for bare et par år siden,« forklarede han.
Først skulle han lige introducere Large Hadron Collider-maskinen og de forsøg, man bruger den til. Og der var meget at fortælle, for LHC er fyldt med rekorder og opsigtsvækkende trivia. For eksempel skal det 27 kilometer lange monsterapparat holde sig inden for en tolerance på under én millimeter, og det kan mærkes, hvis der er temperaturudsving i den underjordiske ring, som LHC står i.
Men gennem årene er mange andre fejlkilder også blevet afsløret og skal regnes med ind. Månens bane, eller regnvejr som fylder vand i den nærliggende Geneve-sø, påvirker målingerne på grund af tiltrækningskræften, ligesom et TGV-tog, som krydser hen over LHC, forstyrrer dataindsamlingen.
Når partiklerne er blevet accelleret op til 99,9999991 procent af lysets hastighed, sker selve kollisionen i et stort måleapparat, som lige kunne klemmes ind en hule på størrelse med en 10-etagers bygning. Og lag på lag af sensorer registrerer så, hvad der sker.
»Der er 150 millioner sensorer, som måler 40 millioner gange i sekundet. Det kan I sammenligne med et 150 megapixel kamera, som tager 40 millioner billeder i sekundet,« sagde Dirk Düllmann.
Smider de fleste data væk med det samme
Det giver en datastrøm på 300 gigabyte pr. sekund fra detektorerne, men det meste kan undværes og bliver filtreret bort.
»Vi har en stor computer-farm, som analyserer, hvad der er interessant, ved at rekonstruere kollisionen, og så smide det væk, som er kedeligt. Man skal ikke tage let på at smide data ud i statistisk analyse, for det kan introducere en skævvridning af data. Så vi gemmer lidt af det, som bliver filtreret bort, så vi kan tjekke, at det var rigtigt at ignorere disse data,« forklarede han.
Dermed er man nede på mere håndterlige 300 megabyte pr. sekund, hvilket i løbet af de mange eksperimenter, der bliver afviklet på et år, løber op i samlet 22 petabyte nye data om året.
På selve Cern-centret tager man sig kun af den umiddelbare databehandling. Derefter bliver data sendt videre til 11 andre centre rundt omkring på for eksempel universiteter i Europa, via netværksforbindelser på 10 gigabit/sekund.
»Vi anslog fra starten af, at det ville kræve 200.000 processorkerner at behandle disse data, og det er faktisk steget til 300.000 CPU’er. Så det var tydeligt fra starten, at Cern ikke selv kunne levere al den computerkraft. Det var der ikke budget til,« sagde han.
Arbejdsbyrden bliver dermed delt med de 11 centre, der sørger for den første, nødvendige databehandling, hvorefter 130 andre centre står for de endelige analyser.
Kan ikke lide roterende diske
Samlet håndterer Dirk Düllmann og hans stab i øjeblikket 68.000 fysiske diske, som leverer 45 petabyte storage. Men faktisk er tape-storage i lige så høj kurs.
»Et miljø som vores kan ikke lide roterende diske. Det er hurtigt at hente data, men også hurtigt at få dem slettet igen. Så vi er glade for bånd. De er frygtelige, for der er en latenstid på 2-3 timer, hvis man skal hente data frem, for vi har et begrænset antal bånd-maskiner, så vi indførte et lag imellem med diskcache,« forklarede han.
Problemet er, at brugerne på trods af cachen kan blive ramt af den lange ventetid, som kan blive en grum og dyr flaskehals for brugerne.
»Det er et problem, når man kører et job. Så spilder man dyr CPU-tid, hvis man skal vente,« sagde Dirk Düllmann.
Tendensen nu er derfor at gå efter en mere distribueret model, hvor man kan undvære bånd.
Også på database-fronten har der været forskellige strømninger. Gennem 1990’erne prøvede Cern først at gemme alt i objektbaserede databaser og skiftede så til relationsdatabaser.
»Det droppede vi også, og i dag har vi en hybrid. NoSQL bliver i øvrigt mere og mere populær,« sagde han.


Tilføj kommentar