Rigshospitalet: DNA-data fra syge beskyttes med kryptering under overførsel til Risø

4. oktober 2018 kl. 05:1118
Rigshospitalet: DNA-data fra syge beskyttes med kryptering under overførsel til Risø
Illustration: Laurids Hovgaard.
Genom-data fra blandt andet kræftpatienter sendes fra Rigshospitalet til DTU Risøs supercomputer med hardwarebokse baseret på AES256-kryptering.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Der er tale om følsomme data i ekstrem grad, når genetikere på Rigshospitalet gennemfører en komplet kortlægning af et menneskes arvemasse, der består af omkring tre milliarder basepar. Metoden hedder helgenomsekventering og bruges blandt andet til at lave behandlingsplaner for kræftsyge børn og patienter med arvelige sygdomme.

Sygdomme, der ofte er så alvorlige, at lægerne konstant er i et kapløb med tiden.

»Når vi eksempelvis skal diagnosticere cancer på et barn, så skal vi bruge et svar hurtigt, og derfor er tid ekstremt kritisk for os. Med helgenomsekventering kan man se på hele arvemassen i en samlet analyse, hvor vi tidligere kun kortlagde de gendefekter, som man ved er knyttet til kendte sygdomme. Det betyder, at vi i dag producerer datamængder, som er helt anderledes og meget større end tidligere. Vores nyeste sekventeringsmaskine bruger eksempelvis to dage på at fylde 6 TB-data med sekventeringsmateriale for 48 personers arvemasse,« siger Frederik Otzen Bagger, bioinformatiker og forsker ved Rigshospitalet.

Når man skal kortlægge et helt menneskes arvemasse, bliver datamængderne altså massive, og det kræver processorkraft udover det sædvanlige, hvis analyseresultaterne ikke skal trække i langdrag. Derfor sender Rigshospitalet genom-data til analyse hos DTU’s supercomputer på Risø, ca. 40 kilometer vest for Rigshospitalet.

Artiklen fortsætter efter annoncen

Helgenomsekventering

Helgenomssekventering betyder, at både genomets kodende og ikke-kodende regioner kortlægges. Det fungerer ved, at genomet deles op i små stykker, som så analyseres enkeltvis, uden at man kender sammenhængen.

»Det betyder, at vi har brug for en meget stor computer, der kan sætte genomet sammen igen efter analysen,« fortæller Frederik Otzen Bagger.

Supercomputer sætter genomet sammen igen

Det kan de på DTU Risø, hvor supercomputeren Computerome står. Når man skal sende så ekstremt følsomme data, som DNA-materiale er, skal data krypteres, inden de bliver transporteret på en højhastighedsfiberforbindelse mellem Rigshospitalet og DTU Risø.

Her har Rigshospitalet kigget mod industrien, hvor man også har ekstremt høje krav til svartider, stabilitet og pålidelighed.

Artiklen fortsætter efter annoncen

»Vi skal passe på patienternes data, fra det øjeblik de kommer ind på hospitalet. Vi vil gerne sende de store mængder data på en smart og hurtig måde uden selv at skulle præ-behandle eller softwarekryptere data her på Rigshospitalet, fordi det forlænger svartiderne, og det kan vi med en hardwarekrypteringsløsning«, fortæller Frederik Otzen Bagger.

Supercomputeren på Risø

DTU’s High Performance Computer, Computerome, er en af de få computere som faktisk kan ses fra luften, eksempelvis på Google Maps, fordi computer-klyngen fylder flere containere. For det fylder en del, når man har et system med 16048 CPU-kerne, 92 terabytes hukommelse forbundet til tre petabytes High Performance storage og med et total performance på mere end 483 TeraFLOPS.

Krypterer i realtid

Når man skal kryptere data, findes der overordnet to metoder: enten med software eller hardware. Rigshospitalet har valgt en hardware-krypteringsløsning, som er udviklet af den danske startup-virksomhed Zybersafe i form af to fysiske bokse, som monteres i hver sin ende af de to forbindelsespunkter: en på Rigshospitalet og en 40 kilometer vest på hos DTU Risø nord for Roskilde.

»Vi kan starte med at kryptere og sende data løbende, fra det sekund vi starter sekventeringsmaskinen. Hvis vi skulle vente på at sekventeringsmaskinen var færdig med sin behandling, før vi kunne starte en softwarekryptering, ville der alene gå to dage tabt, før vi kunne begynde at pakke data og sende til Computerome på DTU Risø, ligesom dataoverførslen fra en mellemliggende server i sig selv ville tage tid,« siger Frederik Otzen Bagger.

Artiklen fortsætter efter annoncen

Samtidig er det forudsigeligt, hvor lang tid det tager at kryptere.

»Man ved, at der går x antal mikrosekunder, fra du modtager en pakke, til den er færdig med at kryptere og kan sende filen videre,« siger Erik Bidstrup, CTO i Zybersafe.

Når genom-data sendes over fiberforbindelsen, sker det med blokkrypteringsalgoritmen AES256, som er en af de mest benyttede krypteringsalgoritmer i verden - det ved mange Version2-læsere - og blandt andet er standard hos de amerikanske myndigheder. 256 henviser til antallet af mulige nøgler, der kan bruges til krypteringen.

»Det interessante med kryptering er, at det i sig selv ikke løser et problem, men gør et datahåndteringsproblem til et nøglehåndteringsproblem.«

»Vi har valgt AES256, fordi den er den stærkeste og mest anerkendte algoritme på markedet, og så er AES-kryptering oplagt at lave i hardware-løsninger, fordi den tager nogle kobberbaner og bytter om og shuffler på forskellige måder, så du kan lave en sti igennem din hardware, hvor du får ukrypteret data ind i den ene ende og krypteret ud på den anden side. Det hele foregår på et helt fast samlebånd. Den sti, vi har lavet, er så stor, at det kun er hastigheden, du kan føde ind med, der er afgørende,« fortæller Erik Bidstrup.

Frederik Otzen Bagger, bioinformatiker på Rigshospitalets afdeling Genomisk Medicin, og Erik Bidstrup, CTO i Zybersafe.

Kryptering

Advanced Encryption Standard (AES), også kendt som Rijndael, er en blokkrypteringsalgoritme, som er standard i den amerikanske regering. Algoritmen bag er udviklet af de to belgiske kryptografer Joan Daemen og Vincent Rijmen.

Termisk støj generer nøgler

Når Zybersafe skal generere nøgler, foregår det ved, at hardwaren lytter efter variationer i termisk støj, altså udsving i temperaturen. Ved at skabe en uforudsigelig generering af nøgler bliver det umuligt for angribere at ‘gætte’ sig frem til nøglerne.

»Temperaturen ændrer sig hele tiden og er tilgængelig hele tiden, så det er et oplagt valg. Der findes to veje at gå, når man skal generere tilfældige tal: enten ved at se på en fysisk proces eller få en algoritme til at lave en pseudo random number generator ved hjælp af matematiske formler. Vi har set eksempler på, at pseudo-nummer-generering er blevet udnyttet til hacking, f.eks. af den russiske casino-mafia. Konceptet med en hardware number generator er, at den er uforudsigelig,« siger Erik Bidstrup

Der findes mange forskellige løsninger til hardware number generator. I den mere eksotiske afdeling bruger det amerikanske hostingselskab Cloudfare en væg af lavalamper. Det fungerer ved, at et kamera tager et billede af væggen hvert millisekund og forvandler billedets pixels til tilfældige tal.

Når der er generet nøgler, så kommer de aldrig ud af de to hardware-bokse, og dermed kan de hverken stjæles eller misplaceres. Når man får to bokse, er de begge klar til at få nøgler. Så udvælges der en, som genererer en nøgle og deler med den anden. Så nøglen forlader kun maskinen een gang, og her har man styr på, at andre ikke lytter med, siger Erik Bidstrup.

Skulle det alligevel ske, at udefrakommende forsøger at bryde ind i en af boksene, er de designet til at ødelægge sig selv.

Zybersafes kildekode er ikke open source, men bliver testet af en uafhængig tredjepart, ligesom Rigshospitalets interne it-afdeling, Center for It, Medico og Telefoni (CIMT) har testet Zybersafes løsning, inden den for alvor blev sat igang.

Skalerer op

Det er stadig forholdsvis få patienter, der får lavet en helgenomsekventering, da det fortsat er en dyr metode. Derfor er det også begrænset, hvad udefrakommende i øjeblikket kan bruge de tekststrenge, som genom-data består af, til.

Lige nu er det faktisk lidt hypotetisk, hvad data kan bruges til af fremmede fortæller Frederik Otzen Bagger.

»De filer, vi får ud af maskinen på processeringsnivau, minder om tekststrenge på 120 karakterer og indeholder ikke personhenførbare data, fx navne, ligesom vi ikke sender cpr-numre sammen med genom-data. Samtidig er der meget få danskere, der har fået kortlagt deres arvemasse.«

I USA har man dog set eksempler, hvor genom-sekventering er brugt i kriminalsager, blandt andet fra den private 23andMe-database.

Men fremadrettet bliver helgenomsekventering mere udbredt, blandt andet fordi Folketinget har etableret Nationalt Genom Center, der skal udvikle en national database over danskernes arvemasse.

Mangler fokus på beskyttelse af fiberforbindelser

Mens sikkerhed fylder meget, når der indkøbes nye maskiner og software, så sendes de nye store datamængder ofte ubeskyttet over fiberforbindelser. Sådan lyder bekymringen fra den danske startup-virksomhed Zybersafe, der udvikler hardware-kryptering, som blandt andet bruges til at kryptere store mængder følsomme DNA-data fra Rigshospitalet.

»Det at beskytte en fiberforbindelse er lidt eksotisk for mange. Når du går ud og køber en fiberinfrastruktur til din virksomhed, så er det meget hastighed, oppetid og stabilitet, der bliver snakket meget om, mens sikkerhed fylder meget lidt. Det er en meget lille andel af de fiberforbindelser, der findes i dag, som faktisk er beskyttet. Mange har en meget hård kontrol med de enheder der eksempelvis bruges i en produktion, men lige så snart du sender dine data ud på den store fibermotorvej, hvor der er en masse fordelerpunkter ude i det åbne landskab, så er data ubeskyttet.«

Ifølge Erik Bidstrup er det nemlig ikke raketvidenskab at hente data ud af en fysisk fiberforbindelse.

»Du skal kunne bøje fiberen for at få data ud af en fiberforbindelse. Det kan du gøre, uden det bliver bemærket, og du kan købe det udstyr, du skal bruge til at bøje en fiber, for omkring 8.000 kroner, ligesom der ligger praktiske guides til hvordan på Youtube. Lige så snart kablet forlader bygningen, så ligger det bare lettilgængeligt under fliserne,« siger Erik Bidstrup.

Han nævner, at der bliver lyttet på fiberforbindelserne dagligt, eksempelvis når fiberleverandørerne skal lave fejlsøgning.

»Når en tekniker skal fejlsøge for at konfiguere et system, får han i princippet adgang til at optage og omsætte følsom data til information,« siger Erik Bidstrup.

18 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
18
13. maj 2019 kl. 09:36

Ja, setup er helt sort.

Fordi som "forudsætning" for behandling skal der tages en kopi (som ikke bruges i behandlingen) overføres til et centralt statsligt register. Data vil svjv. nu forefindes to steder: lokalt på behandlingsstedet til brug for behandlingen, og i det centrale, statslige register.

Ingen unødvendig central kopi, ingen behandling. Alle andre steder i samfundet ville man kalde det for afpresning.

17
13. maj 2019 kl. 09:29

Så man vil koble to så unikke identifikatorer direkte sammen? En som er en nærmest universel systemnøgle, og en som vi hele tiden går og drysser ud over vores omgivelser. En, som man kun i de yderste undtagelsestilfælde får lov til at ændre, og en som man slet ikke kan ændre. En som giver adgang til mere viden om os, end selv vi og vores nærmeste ville kunne samle på et livstid, endsige huske. Og en, som reelt definerer, hvad vi kan blive til.

What could possibly go wrong?

Forhåbentligt er der indbygget "sprængbrønde" i systemet i tilfælde af fjentlig overtagelse. Men hvad med venlig overtagelse (apropos diskussionen om glidebanen) - og vælg selv farve (rød, blå, brun, sort eller noget helt femte): hvem trykker på knappen, og hvornår skal det ske? Når kandidater bliver opstillingsberettiget til vores lovgivende forsamling, som taler om at kaste folk, som han ikke kan lide, ud fra flyvemaskiner, med optionel faldskærm? Eller når der er partier, så stadig taler om revolution i deres partiprogram? Eller når der kommer en minister, som er villig til at gøre tålt ophold vilkårligt utåleligt, for folk, som hun ikke kan lide?

16
13. maj 2019 kl. 07:34

Hr. Kristiansen, hvornår har De sidst hør en minister svare korrekt/fyldestgørende?

Deres kunnen kan sammenholdes med at læse op fra et A4 ark skrevet af andre... De er kranse-/rævekagefigurer....

15
9. oktober 2018 kl. 09:06

Ville være hvis man i stedet krypterede data med symmetrisk kryptering (som skal skiftes for x mængde data), FØR det skrives på disk på Rigshospitalet, og så kan det overføres som man har lyst. Nøglen til data kan så krypteres med asymmetrisk kryptering (vha. GPG f.ex.) og med nøgler opbevaret på hardware (såsom en simpel nitrokey eller yubikey). De servere der skal kunne læse data, skal så være netværksmæssigt forsvarligt beskyttet (af off. Net og kan få data tilgængelig vha. SAN net f.ex.) og have hardware nøglen. Rimeligt nemt at arbejde med og aitomatisere, og ville øge den reelle sikkerhed betragtelig.

14
9. oktober 2018 kl. 03:36

Det kunne se ud som Ellen Trane Nørby med den seneste artikel i Version2 om Rigshopsitalets samling af helgenomsekventeringer på Computerome ikke har svaret korrekt i et svar til Folketinget (1) på en henvendelse fra PROSA, IDA IT, Dansk Selskab for Almen Medicin, Patientdataforeningen, Patientforeningen Danmark, Ingeniørforeningen IDA og DataEthics vedrørende Nationalt Genom Center (2).

Den 7. maj 2018 deltog Patientdataforeningen samt en lang række andre i et møde i Sundhedsministeriet Nationalt Genom Center. På mødet lærte vi, at genetiske oplysninger vil opbevares i et dobbelt system, på den måde at sekventeringer udført regionalt opbevares af regionen, mens en kopi tillige overføres til NGC. Eksempelvis fik vi fortalt at Rigshospitalet foretager ca. 100 årlige helgenomsekventeringer på eget laboratorium i behandlingsøjemed og lagrer disse på Computerome.

Denne praksis vil fortsætte efter etablering af NGC, og lagring på Computerome vil fortsætte selvom kopi overføres til NGC. Ligeledes vil exomsekventeringer og hotspotanalyser fortsat lagres regionalt, når en kopi overføres til NGC. Det betyder at den regionale IT-løsning består uændret. Det er således i bemærkningerne til lovforslaget anført (3), at data om borgernes genetiske oplysninger, der er tilgået Nationalt Genom Center vil efter lovforslaget: »fortsat […] blive behandlet lokalt i andet regi, f.eks. i en patientjournal m.v. i en region, også efter at oplysningerne er videregivet til Nationalt Genom Center.« (Lovforslaget s. 38.).

Den 23. maj svarer ministeren: “3. Dataminimering Gengivelsen af, at helgenomoplysninger vil blive opbevaret i et dobbelt system kan ikke genkendes.

Formålet med Nationalt Genom Center er netop at undgå lokale regionale parallelsystemer og forskellige sikkerhedsniveauer for helgenomanalyse i Danmark.

Derfor vil Nationalt Genom Center skulle opbygge en national infrastruktur, herunder en national genomdatabase, til analyse og lagring af genetiske oplysninger som nær- mere beskrevet i L 146 endeligt svar på spørgsmål nr. 15”

  1. https://www.ft.dk/samling/20171/lovforslag/l146/spm/75/svar/1491505/1898979.pdf
  2. https://www.ft.dk/samling/20171/lovforslag/L146/bilag/28/1898593.pdf
  3. https://www.ft.dk/ripdf/samling/20171/lovforslag/l146/20171_l146_som_fremsat.pdf
13
8. oktober 2018 kl. 18:42

Hej Martin

Løsningen der er leveret til Rigshospitalet er ikke specielfremstillet. Det er et produkt vi har liggende på hylden, der også er i brug andre steder. Så vi betragter vores løsning som et COTS produkt, selvom det er udviklet og fremstillet i Danmark.

Det tilbageværende spørgmål er hvordan vores løsning er anderledes i forhold til alternativerne. Det er noget vi er nødt til hele tiden at spørge os selv om.

Helt generelt har vi I designet prioriteret, performance, simpelhed og sikkerhed.

Angående performance krypterer vi ved wirespeed, altså med samme hastighed som wan linket. Så alternative løsninger kan være lige så hurtige, men ikke hurtigere.

Det er nok på simpelhed vi adskiller os fra flest alternativer: Produktet gør een ting: kryptering. Der er een knap på vores boks som kan bruges een gang til at starte den indledende nøgleudveksling. Derefter er al konfiguration låst. Boksen transparent for netværk og kan installeres uafhængigt af eller ændring i den underliggende netværksinfrastruktur. (Der er naturligvis nogle forudsætninger der skal være opfyldt.)

Hvad angår sikkerhed så er en vigtig parameter simpelhed, som beskrevet ovenfor. Der er ikke mulighed for bevist eller ubevist at lave fejl eller bagdøre og der er ingen delte eller offentlige nøgler der skal overføres via trediepartsudstyr (installatørens pc eller post-it). Som en del af sikkerheds/simpelhed designet er der fysisk ingen input til boksen ud over knappen. Så der er ikke mulighed for angreb der udnytter bufferoverflow eller lignende.
Derudover er der hardware random number generatoren, da uforudsigelige nøgler er en forudsætning for at krypteringen er sikker. Og endelig aktiv tamper beskyttelse, der beskytter mod det noget eksotiske angreb hvor krypteret data aflyttes og opsamles over en periode. Derefter brydes der ind og et krypteringsendepunkt stjæles. Nøglerne listes ud af det stjålne krypteringsendepunk og bruges til dekryptere den forudopsamlede data.

Det blev et ikke helt kort svar – beklager. /Erik fra Zybersafe

12
8. oktober 2018 kl. 13:35

Erik,

Kan du hurtigt fortælle om hvorfor et korrekt opsat MacSec/802.1AE, som er aes-256 krypto på hardware i L2 på fibre, og er indbygget i de fleste switche af mellemklassen og op, ikke kunne bruges? Det er jo specifikt designet til det formål der beskrives, og "koster ikke noget".

Uden denne indsigt er jeg forfalden til at synes, at man sælger nogle bokse der løser et velimplementeret COTS problem på en super finurlig (og sikkert dyr) måde.

Jeg kan ikke huske hvor jeg læste det, så klassificér det blot som en god historie, men MacSec rygtedes gennem Snowden-lækket at være så godt, at 3-bogstavs organisationer måtte bruge en del pres for at få de store switch producenter til at bremse det og ikke markedsføre det / aktivere det som standard; det var dengang da interne-L1/2 aflytninger var det helt store for dem.

11
8. oktober 2018 kl. 10:13

Så ved jeg hvor jeg skal henvende mig næste gang jeg skal have en helgen omsekventeret.

10
4. oktober 2018 kl. 16:12

Linkhastigheden nu er 10Gbps til næste år bliver den 100Gbps. Som det nævnes kan hardwaren kryptere lige så hurtigt som linket. Gensekventeringsmaskinerne er designede til at aflevere data lokalt i et tempo de selv sætter og stiller derfor krav til lav forudsigeligt latency på forbindelsen til Risø. Både lav latency og høj båndbredde passer godt sammen med hardware baseret kryptering.

De andre metoder der nævnes i artiklen, som integreret nøglehåndtering, hardware tilfældighedsgenerator, er nok af mindre betydning i denne sammenhæng. Men det er mit indtryk at afdeling Genomisk Medicin ser en fordel i at krypteringsløsningen isoleret til to vedligeholdelsesfri fysiske kasser.

Det er rigtigt at denne krypteringsløsning kun beskytter data mens den er i transit. Jeg ved noget om hvordan data opbevares på Risø, men i det mindste er data bag en låst dør både på Risø og Rigshospitalet. Under transit befinder data sig fysisk i det offentligt rum hvorfor den bør krypteres.

/Erik fra Zybersafe

9
4. oktober 2018 kl. 13:57

Hvor høj linkhastighed har de? 10Gbit.. 100Gbit ? Hvad opnår de af hastighed igennem VPN'en vs. ukrypteret? Normalt ville jeg have anvendt sådan noget som det nye Wireguard i Linux kernen.. den kan levere >5Gbit/s på 10G link (og full speed på 1gbit link) af hvad jeg har set af tests.. Jeg ved ikke hvor flaskehalsen ligger på 10Gbit (om flere cores vil hjælpe).

Og VPN beskytter jo KUN data i transit.. dvs. de ligger formodentlig stadig ukrypteret på modtageren (medmindre de har krypterede diske) - og igen beskytter krypterede diske KUN hvis serverne bliver fysisk stjålet - og IKKE imod "digitale indbrud" - da diskene jo på det tidspunkt ER tilgængelige i systemet og derfor også kan tilgås af indbrudstyven.

8
4. oktober 2018 kl. 13:28

Det er da heller ikke helt forkert at tallet hænger sammen med antallet af nøgler - dog har AES256 lidt flere end 256 mulige nøgler, så sammenhængen er ikke 1:1. :-) Formodentligt tættere på 2^256 hvis man ser bort fra diverse svagheder.

7
4. oktober 2018 kl. 11:18

Bruteforce anyone?

"256 henviser til antallet af mulige nøgler, der kan bruges til krypteringen."

6
4. oktober 2018 kl. 09:55

Man må vel formode at data som ligger lokal også er krypteret, harddiske eller media kan jo blive stjålet.

Eller bliver solgt sammen med inventar når de engang flytter.

5
4. oktober 2018 kl. 09:11

Fordi sådan er loven. Det er lidt tragisk, at det at en institution følger loven er dagens positive historie :) Men det betyder jo ikke at vi ikke skal rose CIMT! De har altså også nok brug for det :)

// Jesper

4
4. oktober 2018 kl. 08:59

Fra artiklen:

»De filer vi får ud af maskinen på processeringsnivau minder om tekststrenge på 120 karakterer og indeholder ikke personhenførbare data, fx navne, ligesom vi ikke sender cpr-numre sammen med genom-data. Samtidig er der meget få danskere der har fået kortlagt deres arvemasse.«

Et nøgenbillede indeholder heller ikke cprnumre eller navne, men skal jeg vælge imellem hvad som skal ud på nettet, så foretrækker jeg det sidste.

Og det gælder endnu mere data, som beskriver os som personer, som helgenom-data og lokations-data.

PS: Men flot ny lås, I der har fået på døren (det skulle også bare mangle!) ... så må dem, som sukker efter positive historier da klappe i hænderne - for det er ikke den eneste positive historie der er på forsiden i dag.

3
4. oktober 2018 kl. 08:39

Fordi det hverken er test eller forskning men en del af behandlingen

Når vi eksempelvis skal diagnosticere cancer på et barn, så skal vi bruge et svar hurtigt, og derfor er tid ekstremt kritisk for os.

/Claus

2
4. oktober 2018 kl. 08:02

Hvad er hardwaren og softwaren sammenlignet med andet? Det lyder bare som en helt alm. kryptoløsning, hsm-bokse, hardwarekryptokort osv.. Det er der vel masser af standardiserede løsninger til, fra IBM til Safenet til Luna osv osv. Kan de her zyberzafe noget specielt?

1
4. oktober 2018 kl. 08:00

Hvorfor skal det beskyttes sådan? Data er vel anonymiseret tilstrækkeligt, før man bruger det til test- og udviklingsformål?