3.000 processorkerner kører på fuldt tryk for at opdage datafejl fra LHC

Fysikerne på CERN har brug for en endnu større supercomputer, for 3.000 kerner er ikke nok til at opdage fejl i data fra blot ét enkelt måleinstrument hurtigt nok.

GRENOBLE: Lige nu suser blyatomkernerne rundt i den 27 kilometer lange partikelaccelerator Large Hadron Collider med blot halvdelen af den planlagte energi. Men i datacentret ved det ene af eksperimenterne, ALICE, kører 3.000 processorkerner med maksimal belastning.

»Behovet for regnekraft er meget større, end vi havde forventet. Arbejdet med at designe eksperimentet begyndte for 15 år siden, men nu har behovene udviklet sig. Eksempelvis har vi større behov for regnekraft til at overvåge kvaliteten af data fra eksperimentet,« fortæller projektchef for dataindsamlingsholdet ved ALICE, Pierre Vande Vyvre, til Version2.

ALICE er navnet på det ene af de fire store eksperimenter, der foregår med Large Hadron Collider, LHC. Lige nu kolliderer to partikelstråler med blyatomkerner med hver en energi på 3,5 teraelektronvolt med hinanden. De elementarpartikler, der skabes ved kollisionen, registreres af 18 måleinstrumenter på ALICE, hvoraf det ene instrument, TPC, står for hovedparten af de data, der skal behandles.

»TPC er den detektor, der genererer 90 procent af vores data. Den kan sammenlignes med et 3D-kamera med 500 millioner pixels, så for hver kollision er der potentielt 500 megabyte data,« forklarer Pierre Vande Vyvre.

Hovedparten af de mange detektorer i TPC registrerer imidlertid ingenting, og de data kan sorteres fra med det samme. Alligevel bliver der for hver kollision skabt mellem én og 50 megabyte data, som skal behandles. Og LHC kan potentielt skabe flere tusinde kollisioner hvert eneste sekund.

»Det ville være helt umuligt for os at lave det, vi laver, uden supercomputere. Vi har 3.000 kerner til at lave analyse af datakvaliteten fra ALICE,« siger Pierre Vande Vyvre.

De 3.000 processorkerner skal analysere, om eksperimentet producerer brugbare resultater. Hvis dataene er ubrugelige for forskerne, skal de fem personer, der i døgndrift bemander ALICE-eksperimentet, kunne reagere og justere forsøget hurtigst muligt.

Det er nemlig spild af ressourcer, hvis ALICE producerer ubrugelige data, for dataene sendes fra ALICE via en netværksforbindelse, som kan håndtere 2,5 gigabyte pr. sekund, til CERN's centrale datacenter, hvor de arkiveres og samtidig spejles ud til fem datacentre på forskningsnetværk i Europa.

Hvis ALICE producerer 2,5 gigabyte fejlbehæftede data pr. sekund, så giver det hurtigt et kostbart spild af lagerkapacitet, og forskerne vil også spilde computertid på at sortere dataene fra senere.

Derfor vil ALICE-holdet gerne udvide kapaciteten i deres datacenter, så de kan levere den kvalitetskontrol, der skal til for at øge effektiviteten af ALICE.

»ALICE har været i stand til at bruge 85 procent af den tid, LHC har kørt. Men det må vi forbedre. Vi skal kunne detektere problemer med data tidligere med bedre software, så vi kan rapportere det tilbage til driftsfolkene,« siger Pierre Vande Vyvre.

Derfor vil ALICE-holdet opgradere fra almindelige servere til bladeservere for at øge tætheden i datacenteret. De fysiske rammer gør det nemlig vanskeligt at udvide selve datacenteret. LHC ligger i en tunnel op til 175 meter under jorden på grænsen mellem Frankrig og Schweiz, og datacenteret til ALICE ligger i et rum, der er bygget i den skakt, som giver adgang til ALICE, der i sig selv er 16 meter høj og vejer 10.000 ton.

Illustration: Mona Schweizer

Placeringen af datacenteret i skakten sikrer både udstyret og personer mod strålingen fra kollisionerne, men den er samtidig tæt nok på til at de 500 styk 2 gigabit-forbindelser fra detektorerne til datacenteret kan nå centeret via 200 meter lange fiberkabler hver.

For at teste, om de nye bladeservere kunne opfylde behovene, samarbejdede ALICE-holdet med leverandørerne HP og Intel ved at køre en test af softwaren og databehandlingen på en testopstilling med den nye hardware.

»Bladeserverne betød, at vi brugte en tredjedel af gulvpladsen i datacenteret,« siger Pierre Vande Vyvre.

Det er meningen, at LHC skal lukkes ned i 2013 for en opgradering af de elektriske kontakter i de magneter, der driver partikelacceleratoren. Når den opgradering er på plads, er det meningen, at partikelstrålerne skal kunne køre med den dobbelte energi. Det vil give flere kollisioner, som hver især muligvis også vil rumme mere data, og det giver udfordringer for databehandlingen.

»Vi skal forsøge at lave en mere kompleks udvælgelse af de data, vi indsamler. Vi skal gøre bedst mulig brug af de 2,5 gigabyte pr. sekund, vi har til rådighed, så vi skal have softwaren til at udvælge de gode kollisioner og automatisk beslutte, om vi skal beholde datasættet eller ej,« siger Pierre Vande Vyvre.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (5)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Jesper Stein Sandal

Grenoble? CERN ligger i Geneve.

Men nu talte jeg med manden i Grenoble i forbindelse med et besøg på HP's testcenter for HPC. I øvrigt blot et solidt stenkast fra Geneve, hvis der altså ikke lige lå et par mindre alper i vejen.

Mvh.
Jesper Stein Sandal
Version2

  • 1
  • 0
Log ind eller Opret konto for at kommentere