Rigshospitalet: DNA-data fra syge beskyttes med kryptering under overførsel til Risø

Illustration: Laurids Hovgaard
Genom-data fra blandt andet kræftpatienter sendes fra Rigshospitalet til DTU Risøs supercomputer med hardwarebokse baseret på AES256-kryptering.

Der er tale om følsomme data i ekstrem grad, når genetikere på Rigshospitalet gennemfører en komplet kortlægning af et menneskes arvemasse, der består af omkring tre milliarder basepar. Metoden hedder helgenomsekventering og bruges blandt andet til at lave behandlingsplaner for kræftsyge børn og patienter med arvelige sygdomme.

Sygdomme, der ofte er så alvorlige, at lægerne konstant er i et kapløb med tiden.

»Når vi eksempelvis skal diagnosticere cancer på et barn, så skal vi bruge et svar hurtigt, og derfor er tid ekstremt kritisk for os. Med helgenomsekventering kan man se på hele arvemassen i en samlet analyse, hvor vi tidligere kun kortlagde de gendefekter, som man ved er knyttet til kendte sygdomme. Det betyder, at vi i dag producerer datamængder, som er helt anderledes og meget større end tidligere. Vores nyeste sekventeringsmaskine bruger eksempelvis to dage på at fylde 6 TB-data med sekventeringsmateriale for 48 personers arvemasse,« siger Frederik Otzen Bagger, bioinformatiker og forsker ved Rigshospitalet.

Når man skal kortlægge et helt menneskes arvemasse, bliver datamængderne altså massive, og det kræver processorkraft udover det sædvanlige, hvis analyseresultaterne ikke skal trække i langdrag. Derfor sender Rigshospitalet genom-data til analyse hos DTU’s supercomputer på Risø, ca. 40 kilometer vest for Rigshospitalet.

»Det betyder, at vi har brug for en meget stor computer, der kan sætte genomet sammen igen efter analysen,« fortæller Frederik Otzen Bagger.

Supercomputer sætter genomet sammen igen

Det kan de på DTU Risø, hvor supercomputeren Computerome står. Når man skal sende så ekstremt følsomme data, som DNA-materiale er, skal data krypteres, inden de bliver transporteret på en højhastighedsfiberforbindelse mellem Rigshospitalet og DTU Risø.

Her har Rigshospitalet kigget mod industrien, hvor man også har ekstremt høje krav til svartider, stabilitet og pålidelighed.

»Vi skal passe på patienternes data, fra det øjeblik de kommer ind på hospitalet. Vi vil gerne sende de store mængder data på en smart og hurtig måde uden selv at skulle præ-behandle eller softwarekryptere data her på Rigshospitalet, fordi det forlænger svartiderne, og det kan vi med en hardwarekrypteringsløsning«, fortæller Frederik Otzen Bagger.

Læs også: Ny supercomputer skal håndtere borgernes oplysninger på omstridt genomcenter

Krypterer i realtid

Når man skal kryptere data, findes der overordnet to metoder: enten med software eller hardware. Rigshospitalet har valgt en hardware-krypteringsløsning, som er udviklet af den danske startup-virksomhed Zybersafe i form af to fysiske bokse, som monteres i hver sin ende af de to forbindelsespunkter: en på Rigshospitalet og en 40 kilometer vest på hos DTU Risø nord for Roskilde.

»Vi kan starte med at kryptere og sende data løbende, fra det sekund vi starter sekventeringsmaskinen. Hvis vi skulle vente på at sekventeringsmaskinen var færdig med sin behandling, før vi kunne starte en softwarekryptering, ville der alene gå to dage tabt, før vi kunne begynde at pakke data og sende til Computerome på DTU Risø, ligesom dataoverførslen fra en mellemliggende server i sig selv ville tage tid,« siger Frederik Otzen Bagger.

Samtidig er det forudsigeligt, hvor lang tid det tager at kryptere.

»Man ved, at der går x antal mikrosekunder, fra du modtager en pakke, til den er færdig med at kryptere og kan sende filen videre,« siger Erik Bidstrup, CTO i Zybersafe.

Når genom-data sendes over fiberforbindelsen, sker det med blokkrypteringsalgoritmen AES256, som er en af de mest benyttede krypteringsalgoritmer i verden - det ved mange Version2-læsere - og blandt andet er standard hos de amerikanske myndigheder. 256 henviser til antallet af mulige nøgler, der kan bruges til krypteringen.

»Det interessante med kryptering er, at det i sig selv ikke løser et problem, men gør et datahåndteringsproblem til et nøglehåndteringsproblem.«

»Vi har valgt AES256, fordi den er den stærkeste og mest anerkendte algoritme på markedet, og så er AES-kryptering oplagt at lave i hardware-løsninger, fordi den tager nogle kobberbaner og bytter om og shuffler på forskellige måder, så du kan lave en sti igennem din hardware, hvor du får ukrypteret data ind i den ene ende og krypteret ud på den anden side. Det hele foregår på et helt fast samlebånd. Den sti, vi har lavet, er så stor, at det kun er hastigheden, du kan føde ind med, der er afgørende,« fortæller Erik Bidstrup.

Frederik Otzen Bagger, bioinformatiker på Rigshospitalets afdeling Genomisk Medicin, og Erik Bidstrup, CTO i Zybersafe. Illustration: Laurids Hovgaard

Læs også: Har den kryptering, vi allesammen bruger, en bagdør?

Termisk støj generer nøgler

Når Zybersafe skal generere nøgler, foregår det ved, at hardwaren lytter efter variationer i termisk støj, altså udsving i temperaturen. Ved at skabe en uforudsigelig generering af nøgler bliver det umuligt for angribere at ‘gætte’ sig frem til nøglerne.

»Temperaturen ændrer sig hele tiden og er tilgængelig hele tiden, så det er et oplagt valg. Der findes to veje at gå, når man skal generere tilfældige tal: enten ved at se på en fysisk proces eller få en algoritme til at lave en pseudo random number generator ved hjælp af matematiske formler. Vi har set eksempler på, at pseudo-nummer-generering er blevet udnyttet til hacking, f.eks. af den russiske casino-mafia. Konceptet med en hardware number generator er, at den er uforudsigelig,« siger Erik Bidstrup

Der findes mange forskellige løsninger til hardware number generator. I den mere eksotiske afdeling bruger det amerikanske hostingselskab Cloudfare en væg af lavalamper. Det fungerer ved, at et kamera tager et billede af væggen hvert millisekund og forvandler billedets pixels til tilfældige tal.

Når der er generet nøgler, så kommer de aldrig ud af de to hardware-bokse, og dermed kan de hverken stjæles eller misplaceres. Når man får to bokse, er de begge klar til at få nøgler. Så udvælges der en, som genererer en nøgle og deler med den anden. Så nøglen forlader kun maskinen een gang, og her har man styr på, at andre ikke lytter med, siger Erik Bidstrup.

Skulle det alligevel ske, at udefrakommende forsøger at bryde ind i en af boksene, er de designet til at ødelægge sig selv.

Zybersafes kildekode er ikke open source, men bliver testet af en uafhængig tredjepart, ligesom Rigshospitalets interne it-afdeling, Center for It, Medico og Telefoni (CIMT) har testet Zybersafes løsning, inden den for alvor blev sat igang.

Læs også: KL’s pinlige datalæk skyldes stort ukrypteret datasæt

Skalerer op

Det er stadig forholdsvis få patienter, der får lavet en helgenomsekventering, da det fortsat er en dyr metode. Derfor er det også begrænset, hvad udefrakommende i øjeblikket kan bruge de tekststrenge, som genom-data består af, til.

Lige nu er det faktisk lidt hypotetisk, hvad data kan bruges til af fremmede fortæller Frederik Otzen Bagger.

»De filer, vi får ud af maskinen på processeringsnivau, minder om tekststrenge på 120 karakterer og indeholder ikke personhenførbare data, fx navne, ligesom vi ikke sender cpr-numre sammen med genom-data. Samtidig er der meget få danskere, der har fået kortlagt deres arvemasse.«

I USA har man dog set eksempler, hvor genom-sekventering er brugt i kriminalsager, blandt andet fra den private 23andMe-database.

Men fremadrettet bliver helgenomsekventering mere udbredt, blandt andet fordi Folketinget har etableret Nationalt Genom Center, der skal udvikle en national database over danskernes arvemasse.

Læs også: 13 organisationer: Lov om Nationalt Genom Center bør trækkes tilbage

Mangler fokus på beskyttelse af fiberforbindelser

Mens sikkerhed fylder meget, når der indkøbes nye maskiner og software, så sendes de nye store datamængder ofte ubeskyttet over fiberforbindelser. Sådan lyder bekymringen fra den danske startup-virksomhed Zybersafe, der udvikler hardware-kryptering, som blandt andet bruges til at kryptere store mængder følsomme DNA-data fra Rigshospitalet.

»Det at beskytte en fiberforbindelse er lidt eksotisk for mange. Når du går ud og køber en fiberinfrastruktur til din virksomhed, så er det meget hastighed, oppetid og stabilitet, der bliver snakket meget om, mens sikkerhed fylder meget lidt. Det er en meget lille andel af de fiberforbindelser, der findes i dag, som faktisk er beskyttet. Mange har en meget hård kontrol med de enheder der eksempelvis bruges i en produktion, men lige så snart du sender dine data ud på den store fibermotorvej, hvor der er en masse fordelerpunkter ude i det åbne landskab, så er data ubeskyttet.«

Ifølge Erik Bidstrup er det nemlig ikke raketvidenskab at hente data ud af en fysisk fiberforbindelse.

»Du skal kunne bøje fiberen for at få data ud af en fiberforbindelse. Det kan du gøre, uden det bliver bemærket, og du kan købe det udstyr, du skal bruge til at bøje en fiber, for omkring 8.000 kroner, ligesom der ligger praktiske guides til hvordan på Youtube. Lige så snart kablet forlader bygningen, så ligger det bare lettilgængeligt under fliserne,« siger Erik Bidstrup.

Han nævner, at der bliver lyttet på fiberforbindelserne dagligt, eksempelvis når fiberleverandørerne skal lave fejlsøgning.

»Når en tekniker skal fejlsøge for at konfiguere et system, får han i princippet adgang til at optage og omsætte følsom data til information,« siger Erik Bidstrup.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (15)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Bjarne Nielsen

Fra artiklen:

»De filer vi får ud af maskinen på processeringsnivau minder om tekststrenge på 120 karakterer og indeholder ikke personhenførbare data, fx navne, ligesom vi ikke sender cpr-numre sammen med genom-data. Samtidig er der meget få danskere der har fået kortlagt deres arvemasse.«

Et nøgenbillede indeholder heller ikke cprnumre eller navne, men skal jeg vælge imellem hvad som skal ud på nettet, så foretrækker jeg det sidste.

Og det gælder endnu mere data, som beskriver os som personer, som helgenom-data og lokations-data.

PS: Men flot ny lås, I der har fået på døren (det skulle også bare mangle!) ... så må dem, som sukker efter positive historier da klappe i hænderne - for det er ikke den eneste positive historie der er på forsiden i dag.

Klavs Klavsen

Hvor høj linkhastighed har de? 10Gbit.. 100Gbit ? Hvad opnår de af hastighed igennem VPN'en vs. ukrypteret?
Normalt ville jeg have anvendt sådan noget som det nye Wireguard i Linux kernen.. den kan levere >5Gbit/s på 10G link (og full speed på 1gbit link) af hvad jeg har set af tests.. Jeg ved ikke hvor flaskehalsen ligger på 10Gbit (om flere cores vil hjælpe).

Og VPN beskytter jo KUN data i transit.. dvs. de ligger formodentlig stadig ukrypteret på modtageren (medmindre de har krypterede diske) - og igen beskytter krypterede diske KUN hvis serverne bliver fysisk stjålet - og IKKE imod "digitale indbrud" - da diskene jo på det tidspunkt ER tilgængelige i systemet og derfor også kan tilgås af indbrudstyven.

Erik Bidstrup

Linkhastigheden nu er 10Gbps til næste år bliver den 100Gbps. Som det nævnes kan hardwaren kryptere lige så hurtigt som linket.
Gensekventeringsmaskinerne er designede til at aflevere data lokalt i et tempo de selv sætter og stiller derfor krav til lav forudsigeligt latency på forbindelsen til Risø. Både lav latency og høj båndbredde passer godt sammen med hardware baseret kryptering.

De andre metoder der nævnes i artiklen, som integreret nøglehåndtering, hardware tilfældighedsgenerator, er nok af mindre betydning i denne sammenhæng. Men det er mit indtryk at afdeling Genomisk Medicin ser en fordel i at krypteringsløsningen isoleret til to vedligeholdelsesfri fysiske kasser.

Det er rigtigt at denne krypteringsløsning kun beskytter data mens den er i transit. Jeg ved noget om hvordan data opbevares på Risø, men i det mindste er data bag en låst dør både på Risø og Rigshospitalet. Under transit befinder data sig fysisk i det offentligt rum hvorfor den bør krypteres.

/Erik fra Zybersafe

Martin Jensen

Erik,

Kan du hurtigt fortælle om hvorfor et korrekt opsat MacSec/802.1AE, som er aes-256 krypto på hardware i L2 på fibre, og er indbygget i de fleste switche af mellemklassen og op, ikke kunne bruges? Det er jo specifikt designet til det formål der beskrives, og "koster ikke noget".

Uden denne indsigt er jeg forfalden til at synes, at man sælger nogle bokse der løser et velimplementeret COTS problem på en super finurlig (og sikkert dyr) måde.

Jeg kan ikke huske hvor jeg læste det, så klassificér det blot som en god historie, men MacSec rygtedes gennem Snowden-lækket at være så godt, at 3-bogstavs organisationer måtte bruge en del pres for at få de store switch producenter til at bremse det og ikke markedsføre det / aktivere det som standard; det var dengang da interne-L1/2 aflytninger var det helt store for dem.

Erik Bidstrup

Hej Martin

Løsningen der er leveret til Rigshospitalet er ikke specielfremstillet. Det er et produkt vi har liggende på hylden, der også er i brug andre steder. Så vi betragter vores løsning som et COTS produkt, selvom det er udviklet og fremstillet i Danmark.

Det tilbageværende spørgmål er hvordan vores løsning er anderledes i forhold til alternativerne. Det er noget vi er nødt til hele tiden at spørge os selv om.

Helt generelt har vi I designet prioriteret, performance, simpelhed og sikkerhed.

Angående performance krypterer vi ved wirespeed, altså med samme hastighed som wan linket. Så alternative løsninger kan være lige så hurtige, men ikke hurtigere.

Det er nok på simpelhed vi adskiller os fra flest alternativer: Produktet gør een ting: kryptering.
Der er een knap på vores boks som kan bruges een gang til at starte den indledende nøgleudveksling. Derefter er al konfiguration låst.
Boksen transparent for netværk og kan installeres uafhængigt af eller ændring i den underliggende netværksinfrastruktur. (Der er naturligvis nogle forudsætninger der skal være opfyldt.)

Hvad angår sikkerhed så er en vigtig parameter simpelhed, som beskrevet ovenfor. Der er ikke mulighed for bevist eller ubevist at lave fejl eller bagdøre og der er ingen delte eller offentlige nøgler der skal overføres via trediepartsudstyr (installatørens pc eller post-it).
Som en del af sikkerheds/simpelhed designet er der fysisk ingen input til boksen ud over knappen. Så der er ikke mulighed for angreb der udnytter bufferoverflow eller lignende.
Derudover er der hardware random number generatoren, da uforudsigelige nøgler er en forudsætning for at krypteringen er sikker.
Og endelig aktiv tamper beskyttelse, der beskytter mod det noget eksotiske angreb hvor krypteret data aflyttes og opsamles over en periode. Derefter brydes der ind og et krypteringsendepunkt stjæles. Nøglerne listes ud af det stjålne krypteringsendepunk og bruges til dekryptere den forudopsamlede data.

Det blev et ikke helt kort svar – beklager.
/Erik fra Zybersafe

Thomas Birk Kristiansen

Det kunne se ud som Ellen Trane Nørby med den seneste artikel i Version2 om Rigshopsitalets samling af helgenomsekventeringer på Computerome ikke har svaret korrekt i et svar til Folketinget (1) på en henvendelse fra PROSA, IDA IT, Dansk Selskab for Almen Medicin, Patientdataforeningen, Patientforeningen Danmark, Ingeniørforeningen IDA og DataEthics vedrørende Nationalt Genom Center (2).

Den 7. maj 2018 deltog Patientdataforeningen samt en lang række andre i et møde i Sundhedsministeriet Nationalt Genom Center. På mødet lærte vi, at genetiske oplysninger vil opbevares i et dobbelt system, på den måde at sekventeringer udført regionalt opbevares af regionen, mens en kopi tillige overføres til NGC. Eksempelvis fik vi fortalt at Rigshospitalet foretager ca. 100 årlige helgenomsekventeringer på eget laboratorium i behandlingsøjemed og lagrer disse på Computerome.

Denne praksis vil fortsætte efter etablering af NGC, og lagring på Computerome vil fortsætte selvom kopi overføres til NGC. Ligeledes vil exomsekventeringer og hotspotanalyser fortsat lagres regionalt, når en kopi overføres til NGC. Det betyder at den regionale IT-løsning består uændret. Det er således i bemærkningerne til lovforslaget anført (3), at data om borgernes genetiske oplysninger, der er tilgået Nationalt Genom Center vil efter lovforslaget: »fortsat […] blive behandlet lokalt i andet regi, f.eks. i en patientjournal m.v. i en region, også efter at oplysningerne er videregivet til Nationalt Genom Center.« (Lovforslaget s. 38.).

Den 23. maj svarer ministeren:
“3. Dataminimering
Gengivelsen af, at helgenomoplysninger vil blive opbevaret i et dobbelt system kan ikke genkendes.

Formålet med Nationalt Genom Center er netop at undgå lokale regionale parallelsystemer og forskellige sikkerhedsniveauer for helgenomanalyse i Danmark.

Derfor vil Nationalt Genom Center skulle opbygge en national infrastruktur, herunder en national genomdatabase, til analyse og lagring af genetiske oplysninger som nær- mere beskrevet i L 146 endeligt svar på spørgsmål nr. 15”

1) https://www.ft.dk/samling/20171/lovforslag/l146/spm/75/svar/1491505/1898...
2) https://www.ft.dk/samling/20171/lovforslag/L146/bilag/28/1898593.pdf
3) https://www.ft.dk/ripdf/samling/20171/lovforslag/l146/20171_l146_som_fre...

Klavs Klavsen

Ville være hvis man i stedet krypterede data med symmetrisk kryptering (som skal skiftes for x mængde data), FØR det skrives på disk på Rigshospitalet, og så kan det overføres som man har lyst. Nøglen til data kan så krypteres med asymmetrisk kryptering (vha. GPG f.ex.) og med nøgler opbevaret på hardware (såsom en simpel nitrokey eller yubikey). De servere der skal kunne læse data, skal så være netværksmæssigt forsvarligt beskyttet (af off. Net og kan få data tilgængelig vha. SAN net f.ex.) og have hardware nøglen. Rimeligt nemt at arbejde med og aitomatisere, og ville øge den reelle sikkerhed betragtelig.

Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017
Jobfinder Logo
Job fra Jobfinder