Private skyer sikrer følsomme data på Risø-supercomputer

Compute-delen af Computerome på DTU's Risø-campus. Illustration: Jesper Stein Sandal
Supercomputeren Computerome på Risø lægger plads til følsomme persondata, og derfor er den ikke helt som andre supercomputere.

Forskning, der skal skabe grundlaget for personlig medicin, indebærer håndtering af følsomme oplysninger om patienter med alvorlige sygdomme, så hvordan løser man dén opgave, når forskningen samtidig kræver så store mængder databehandlingskapacitet, at det er nødvendigt med en supercomputer, der er så stor, at mange andre forskere også har adgang til den?

Det er den store udfordring for supercomputeren Computerome, der står på DTU's campus på Risø. Den er bygget til at hjælpe med forskning inden for biologien, og løsningen har været at gribe sagen lidt anderledes an, end man normalt ser i supercomputerverdenen.

»Storagekapaciteten er det vigtigste. Vi ser computeren som 'computable storage', hvor vi har storage til følsomme data med noget regnekapacitet koblet til. Pointen er, at den kan håndtere data på en sikker måde, hvor forskerne kan leve op til de krav, myndighederne stiller til dem. Det er anderledes, end hvis du skal lave meteorologiske beregninger eller lede efter Higgs-partiklen,« forklarer professor Søren Brunak fra DTU's Center for Biological Sequence Analysis (CBS) til Version2.

Læs også: Ny supercomputer på Risø: Hurtigste RAM vigtigere end hurtigste processorer

Der er ofte tale om forskning, der involverer store datamængder. Derfor er det nødvendigt at have dem liggende på supercomputeren, så de er klar, når forskerne har behov for at bruge dem og i øvrigt har deres tilladelser på plads.

Private skyer

For at sikre dataene har DTU opbygget en arkitektur, hvor forskellige projektgrupper får deres egne sikre, private skyer på Computerome. I skyen kan de have deres følsomme data liggende isoleret fra de andre brugere af supercomputeren.

Samtidig bevarer projektgrupperne selv kontrollen med, hvem der får adgang til dataene.

»Vi har en service-provider-model, så de, der har tilladelse til at analysere data, også er dem, der giver adgang internt i gruppen. Alle data bliver krypteret, og det er dataejeren i projektgruppen, der får nøglen til de krypterede data,« forklarer Peter Løngreen, chef for den Nationale Lifescience Supercomputer ved DTU til Version2.

Han er den ene halvdel af det hold hos DTU, der har udviklet den platform, der bliver anvendt på Computerome.

Systemerne er bygget op med cloud-teknologier, kombineret med et højt sikkerhedsniveau.

Det indebærer blandt andet to-faktor-autentificering af brugerne og spredning af data ud over mange fysiske lagermedier.

Det sidste skal forhindre, at data mistes, og oven i krypteringen øger det sikkerheden yderligere.

»Tidligere havde man dét problem, at data kunne komme til at ligge på en forskers personlige computer,« forklarer Søren Brunak.

Sikkerhedsforanstaltningerne omfatter blandt andet også multi- faktor-autentificering af brugerne.

Faktisk er hensynet til sikkerhed ifølge Peter Løngreen så højt prioriteret på Computerome, at man har valgt at følge de retningslinjer for sikkerhed, som anbefales af det amerikanske forsvarsministerium (de såkaldte STIGs).

Der kan ikke tages copy/paste af data, og der er en række andre foranstaltninger, der forhindrer, at data kan forlade computeren overhovedet.

»Vi tilbyder en platform, der er certificeret til de sikkerhedsstandarder, der kræves til denne type forskning. Det er en proces, der ikke er så ligetil, fordi det omfatter certificering af driftsorganisationen, platformen, sikkerhedsniveauerne samt en speciel træning af medarbejderne, men det gør det meget lettere for forskerne og institutionerne at komme i gang med at arbejde med denne type data,« siger Peter Løngreen.

Svært at udnytte supercomputer for lifescience-forskere

Forskningsgrupperne kan altså få en platform hos Computerome, der skal ses som en erstatning for selv at opstille en kraftig computer og sørge for sikkerheden. Men det er også sværere at udnytte en supercomputer fuldt ud, hvis man er en en enkelt forskningsgruppe inden for det biologiske område.

»Inden for biologien og life sciences er behovet for computerkraft ofte mere svingende. Det er mere on-demand. Og hvis man har sin egen computer i kælderen, så skal man forrente den 24/7,« siger Søren Brunak.

Læs også: Risø-supercomputer med 16.048 kerner skal knække biologiens Big Data

En anden fordel ved at gå sammen med andre forskningsinstitutioner om fælles anlæg som Computerome er, at der er en masse andre datakilder, der kan bruges i forskningen, som er offentligt tilgængelige og frit kan downloades, men som er ganske omfattende at holde opdaterede.

»De offentlige databaser bliver typisk opdateret en gang i døgnet. Hvis vi lægger en kopi på computeren, så kan virksomheder og universiteter deles om én kopi, samtidig med at det kun er dem selv, der har adgang til deres egne data,« siger Søren Brunak.

De offentlige data kan også omfatte eksempelvis DNA-sekventeringer af bakterier, som er frit tilgængelige forskningsresultater, der dog er meget omfattende.

Forventer mere DNA-sekventering

Computerome rummer lige nu flere private clouds og har cirka 900 brugere og mere end 1.000 forskellige algoritmer.

Der gjort plads på Risø til fremtidige udbygninger af supercomputeren, som lige nu kun er en forsmag på dét, der forventes at være nødvendigt, når området for personlig medicin for alvor tager fart.

Erfaringerne med cloud-platformen kan også blive relevant for, hvordan området kan bevæge sig fra forskning til anvendelse i sundhedssektoren.

»Med personlig medicin er ideen f.eks. at indrette behandlingen efter folks genetiske variation. Det giver behov for at kunne forbinde til data fra mange forskellige hospitaler og mange behandlere. Men hospitalet har ikke behov for at have flere petabyte liggende. De har brugt for nedkogte data, der kan fungere som beslutningsstøtte for lægerne« siger Søren Brunak.

Derfor vil det være nærliggende at opbygge en infrastruktur, der lader hospitalerne hente de relevante data ud fra den enkelte patients genom, hvor der centralt foregår den fornødne databehandling, så lægen kun står med de data, der er nødvendige.

»Det bliver billigere at sekventere DNA, så der vil blive sekventeret mere og dermed skabt mere data. Infrastrukturen til dette skal bygges, samtidig med at data genereres. Der kan vi bidrage fra universitetets side og med supercomputeren på Risø som eksempel,« siger Søren Brunak.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (5)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Gert Madsen

dataejeren i projektgruppen


Det er muligt at man har udpeget en dataansvarlig i en eller anden projektgruppe.
Det betyder ikke at vedkommende får ejerskab over vores data.
Jeg er klar over at der findes den opfattelse i visse kredse. Jeg kendte personligt en mand, som fik amputeret foden, fordi overlægen betragtede de oprindelige røntgenbilleder som sin personlige ejendom, og tog dem med til Sydamerika.

Der kan ikke slås hårdt nok ned på folk med den opfattelse.

  • 3
  • 0
Anne-Marie Krogsbøll

Dennis Tychsen:

Jeg er godt klar over (og det er du sikkert også), at jeg bevidst misforstår ordet "dataejer" her - men jeg er dødtræt at, at der er andre mennesker (forskere, embedsmænd, politikere), der mener, at de ejer mine data og mit privatliv, og kan råde over dem. De ejer for pokker da højst deres egne data, som de kan råde over (med mindre vi efterhånden bor i Nordkorea).

Hvad f.... bilder de sig egentligt ind på den måde at trænge ind i mit privatliv? Det er helt utroligt, at vi skal finde os i det. Der er åbenbart tale om en decideret herrefolk-mentalitet, hvor vi andre blot er malke-undersåtter til levering af herskabets dataråstoffer.

Jo mere de krænker min privatsfære, jo mere føler jeg trang til at sige et rungende "nej" til forskning - det ville jeg aldrig have fundet på at gøre for 10 år siden, hvor jeg var så godtroende at tro, at det var en gave, jeg gav samfundet, og ikke mit privatliv, der blev røvet bag min ryg.

http://www.skrivunder.net/nej_til_udlevering_af_dine_helbredsdata_uden_s...

  • 4
  • 0
Mads Hjorth

Jeg er ganske tryg ved at mit genom muligvis findes på en computer i Roskilde. Mon ikke de passer rigtig godt på det. Nok bedre end jeg selv vil være i stand til.

Men jeg er lidt bekymret for hvor mit DNA bliver sekventeret og under hvilke vilkår og muligheder forsanktioner...

Hvis jeg (eller biologisk materiale der engang har været en del af mig) er med i et forsøg, hvem står så for at 'digitalisere' det?

  • 1
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize