Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Emner GOTO, Storage

Så voldsom er storage-udfordringen i Cern: 45 petabyte data og 68.000 diske

GOTO: Eksperimenterne med partikelacceleration på Cern kaster 300 gigabyte data af sig - i sekundet. Og selvom de fleste data bliver smidt ud, er der stadig 22 petabyte nye data hvert år, som skal håndteres.

Af Jesper Kildebogaard Onsdag, 3. oktober 2012 - 13:05

Den gigantiske partikelaccelerator LHC, som det internationale forskningscenter Cern driver, er i sig selv en imponerende konstruktion, med sin bane på 27 kilometer og de 10.000 store superledende magneter, som bliver kølet ned til lige over det absolutte nulpunkt af 120 ton flydende helium.

Men uden en voldsom muskel til databehandling og storage ville forsøgene være umulige at få noget ud af, og derfor er netop data-delen af operationen for første gang i fysik-miljøet blevet anerkendt som en helt essentiel del af arbejdet.

Det fortalte Dirk Düllmann, Cerns souschef for data og storage, onsdag på udviklerkonferencen Goto i Aarhus.

»Et forsøg giver 30 petabyte data, og de kommer gennem databehandling og bliver klar til brug et par uger efter forsøget. Det kunne slet ikke lade sig gøre for bare et par år siden,« forklarede han.

Først skulle han lige introducere Large Hadron Collider-maskinen og de forsøg, man bruger den til. Og der var meget at fortælle, for LHC er fyldt med rekorder og opsigtsvækkende trivia. For eksempel skal det 27 kilometer lange monsterapparat holde sig inden for en tolerance på under én millimeter, og det kan mærkes, hvis der er temperaturudsving i den underjordiske ring, som LHC står i.

Men gennem årene er mange andre fejlkilder også blevet afsløret og skal regnes med ind. Månens bane, eller regnvejr som fylder vand i den nærliggende Geneve-sø, påvirker målingerne på grund af tiltrækningskræften, ligesom et TGV-tog, som krydser hen over LHC, forstyrrer dataindsamlingen.

Når partiklerne er blevet accelleret op til 99,9999991 procent af lysets hastighed, sker selve kollisionen i et stort måleapparat, som lige kunne klemmes ind en hule på størrelse med en 10-etagers bygning. Og lag på lag af sensorer registrerer så, hvad der sker.

»Der er 150 millioner sensorer, som måler 40 millioner gange i sekundet. Det kan I sammenligne med et 150 megapixel kamera, som tager 40 millioner billeder i sekundet,« sagde Dirk Düllmann.

Smider de fleste data væk med det samme

Det giver en datastrøm på 300 gigabyte pr. sekund fra detektorerne, men det meste kan undværes og bliver filtreret bort.

»Vi har en stor computer-farm, som analyserer, hvad der er interessant, ved at rekonstruere kollisionen, og så smide det væk, som er kedeligt. Man skal ikke tage let på at smide data ud i statistisk analyse, for det kan introducere en skævvridning af data. Så vi gemmer lidt af det, som bliver filtreret bort, så vi kan tjekke, at det var rigtigt at ignorere disse data,« forklarede han.

Dermed er man nede på mere håndterlige 300 megabyte pr. sekund, hvilket i løbet af de mange eksperimenter, der bliver afviklet på et år, løber op i samlet 22 petabyte nye data om året.

På selve Cern-centret tager man sig kun af den umiddelbare databehandling. Derefter bliver data sendt videre til 11 andre centre rundt omkring på for eksempel universiteter i Europa, via netværksforbindelser på 10 gigabit/sekund.

»Vi anslog fra starten af, at det ville kræve 200.000 processorkerner at behandle disse data, og det er faktisk steget til 300.000 CPU’er. Så det var tydeligt fra starten, at Cern ikke selv kunne levere al den computerkraft. Det var der ikke budget til,« sagde han.

Arbejdsbyrden bliver dermed delt med de 11 centre, der sørger for den første, nødvendige databehandling, hvorefter 130 andre centre står for de endelige analyser.

Kan ikke lide roterende diske

Samlet håndterer Dirk Düllmann og hans stab i øjeblikket 68.000 fysiske diske, som leverer 45 petabyte storage. Men faktisk er tape-storage i lige så høj kurs.

»Et miljø som vores kan ikke lide roterende diske. Det er hurtigt at hente data, men også hurtigt at få dem slettet igen. Så vi er glade for bånd. De er frygtelige, for der er en latenstid på 2-3 timer, hvis man skal hente data frem, for vi har et begrænset antal bånd-maskiner, så vi indførte et lag imellem med diskcache,« forklarede han.

Problemet er, at brugerne på trods af cachen kan blive ramt af den lange ventetid, som kan blive en grum og dyr flaskehals for brugerne.

»Det er et problem, når man kører et job. Så spilder man dyr CPU-tid, hvis man skal vente,« sagde Dirk Düllmann.

Tendensen nu er derfor at gå efter en mere distribueret model, hvor man kan undvære bånd.

Også på database-fronten har der været forskellige strømninger. Gennem 1990’erne prøvede Cern først at gemme alt i objektbaserede databaser og skiftede så til relationsdatabaser.

»Det droppede vi også, og i dag har vi en hybrid. NoSQL bliver i øvrigt mere og mere populær,« sagde han.

Send Tweet
Udskriv

Mere om Storage

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg dette emne

Sådan gemmer Det Kongelige Bibliotek alle danske computerspil

Udgivet 17. maj 6.29Opdateret 17. maj 9.39

Derfor tog danskere til storage-konference: Adgang til eksperter og netværk med partnere

Udgivet 14. maj 15.20Opdateret 14. maj 15.20

EMC's nye storage-platform: Nu er der ikke mere, der kan virtualiseres

Udgivet 7. maj 14.57Opdateret 7. maj 14.57

SSD er blevet hverdag i danske serverrum

Udgivet 2. maj 6.29Opdateret 2. maj 9.49

IT-job & karriere

  • Se alle it-job
  • Importer din kompetenceprofil fra LinkedIn
Teknisk Softwaretester - Stibo Systems
Udgivet 17. maj 10.05
Projektleder medico-software
Udgivet 8. maj 16.34
Softwareudvikler med passion for arkitektur
Udgivet 2. maj 13.41
Junior Windows Software Engineer
Udgivet 25. apr 14.13

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Teenager står frem: Derfor hackede jeg Version2

Udgivet 17. maj 16.40Opdateret 17. maj 16.40

Fredagshumor: Sådan ser indbakkens pestilenser ud i virkeligheden

Udgivet 17. maj 15.00Opdateret 17. maj 15.00

New Zealand dropper softwarepatenter

Udgivet 17. maj 14.09Opdateret 17. maj 14.09

Microsoft gemmer udspekuleret jobanonnce på Bing

Udgivet 17. maj 11.35Opdateret 17. maj 11.35

Ny wifi-standard med gigabit-hastighed er en gave til it-chefen

Udgivet 17. maj 10.54Opdateret 17. maj 10.54

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Whitepapers

Version2 Insight: Softwaretest

Mediehuset Ingeniøren

Succes historier om OPS – Optimized Print Services

Konica Minolta Business Solutions Denmark

OPS - Optimized Print Services

Konica Minolta Business Solutions Denmark

Mobile Test Service - Device Strategy & Planning

Testhuset

A visual reality check that makes sense - Affecto customer reference

Affecto Denmark
  • Flere whitepapers

Branchenyheder

En ny epoke for storageløsninger!

HP

Sikkert, nemt og billigt at dele data

RushFiles

Lyncs stormløb - høje ambitioner og køb af Skype

GlobalConnect

Redpill Linpro hjælper kunderne ud af IBM Notes' databaser

Redpill Linpro

VP SECURITIES skaber overblik over kunderne med ny Microsoft CRM løsning

ProActive

It-virksomheder

KJAER DATA
|
Credocom
|
Webtuner ApS
|
Deltek Danmark
|
Nhouse
|
Queue-IT
|
Computerfriend.DK
|
Bownty ApS
|
IT Company
|
NNIT
|
Rackhosting
|
Reload!
 

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Cookie- & privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Business Intelligence
  • Cloud computing
  • Intranet
  • It-sikkerhed
  • NemID
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu
  • Virtualisering
  • Windows 8
  • Windows Server 2012
  • iOS 6
  • iPhone 5

Tjenester

  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Trekronergade 26 2500 Valby
  • Tlf. work 33265300