Rigshospitalet: DNA-data fra syge beskyttes med kryptering under overførsel til Risø
Der er tale om følsomme data i ekstrem grad, når genetikere på Rigshospitalet gennemfører en komplet kortlægning af et menneskes arvemasse, der består af omkring tre milliarder basepar. Metoden hedder helgenomsekventering og bruges blandt andet til at lave behandlingsplaner for kræftsyge børn og patienter med arvelige sygdomme.
Sygdomme, der ofte er så alvorlige, at lægerne konstant er i et kapløb med tiden.
»Når vi eksempelvis skal diagnosticere cancer på et barn, så skal vi bruge et svar hurtigt, og derfor er tid ekstremt kritisk for os. Med helgenomsekventering kan man se på hele arvemassen i en samlet analyse, hvor vi tidligere kun kortlagde de gendefekter, som man ved er knyttet til kendte sygdomme. Det betyder, at vi i dag producerer datamængder, som er helt anderledes og meget større end tidligere. Vores nyeste sekventeringsmaskine bruger eksempelvis to dage på at fylde 6 TB-data med sekventeringsmateriale for 48 personers arvemasse,« siger Frederik Otzen Bagger, bioinformatiker og forsker ved Rigshospitalet.
Når man skal kortlægge et helt menneskes arvemasse, bliver datamængderne altså massive, og det kræver processorkraft udover det sædvanlige, hvis analyseresultaterne ikke skal trække i langdrag. Derfor sender Rigshospitalet genom-data til analyse hos DTU’s supercomputer på Risø, ca. 40 kilometer vest for Rigshospitalet.
Helgenomssekventering betyder, at både genomets kodende og ikke-kodende regioner kortlægges. Det fungerer ved, at genomet deles op i små stykker, som så analyseres enkeltvis, uden at man kender sammenhængen.Helgenomsekventering
»Det betyder, at vi har brug for en meget stor computer, der kan sætte genomet sammen igen efter analysen,« fortæller Frederik Otzen Bagger.
Supercomputer sætter genomet sammen igen
Det kan de på DTU Risø, hvor supercomputeren Computerome står. Når man skal sende så ekstremt følsomme data, som DNA-materiale er, skal data krypteres, inden de bliver transporteret på en højhastighedsfiberforbindelse mellem Rigshospitalet og DTU Risø.
Her har Rigshospitalet kigget mod industrien, hvor man også har ekstremt høje krav til svartider, stabilitet og pålidelighed.
»Vi skal passe på patienternes data, fra det øjeblik de kommer ind på hospitalet. Vi vil gerne sende de store mængder data på en smart og hurtig måde uden selv at skulle præ-behandle eller softwarekryptere data her på Rigshospitalet, fordi det forlænger svartiderne, og det kan vi med en hardwarekrypteringsløsning«, fortæller Frederik Otzen Bagger.
DTU’s High Performance Computer, Computerome, er en af de få computere som faktisk kan ses fra luften, eksempelvis på Google Maps, fordi computer-klyngen fylder flere containere. For det fylder en del, når man har et system med 16048 CPU-kerne, 92 terabytes hukommelse forbundet til tre petabytes High Performance storage og med et total performance på mere end 483 TeraFLOPS.Supercomputeren på Risø
Krypterer i realtid
Når man skal kryptere data, findes der overordnet to metoder: enten med software eller hardware. Rigshospitalet har valgt en hardware-krypteringsløsning, som er udviklet af den danske startup-virksomhed Zybersafe i form af to fysiske bokse, som monteres i hver sin ende af de to forbindelsespunkter: en på Rigshospitalet og en 40 kilometer vest på hos DTU Risø nord for Roskilde.
»Vi kan starte med at kryptere og sende data løbende, fra det sekund vi starter sekventeringsmaskinen. Hvis vi skulle vente på at sekventeringsmaskinen var færdig med sin behandling, før vi kunne starte en softwarekryptering, ville der alene gå to dage tabt, før vi kunne begynde at pakke data og sende til Computerome på DTU Risø, ligesom dataoverførslen fra en mellemliggende server i sig selv ville tage tid,« siger Frederik Otzen Bagger.
Samtidig er det forudsigeligt, hvor lang tid det tager at kryptere.
»Man ved, at der går x antal mikrosekunder, fra du modtager en pakke, til den er færdig med at kryptere og kan sende filen videre,« siger Erik Bidstrup, CTO i Zybersafe.
Når genom-data sendes over fiberforbindelsen, sker det med blokkrypteringsalgoritmen AES256, som er en af de mest benyttede krypteringsalgoritmer i verden - det ved mange Version2-læsere - og blandt andet er standard hos de amerikanske myndigheder. 256 henviser til antallet af mulige nøgler, der kan bruges til krypteringen.
»Det interessante med kryptering er, at det i sig selv ikke løser et problem, men gør et datahåndteringsproblem til et nøglehåndteringsproblem.«
»Vi har valgt AES256, fordi den er den stærkeste og mest anerkendte algoritme på markedet, og så er AES-kryptering oplagt at lave i hardware-løsninger, fordi den tager nogle kobberbaner og bytter om og shuffler på forskellige måder, så du kan lave en sti igennem din hardware, hvor du får ukrypteret data ind i den ene ende og krypteret ud på den anden side. Det hele foregår på et helt fast samlebånd. Den sti, vi har lavet, er så stor, at det kun er hastigheden, du kan føde ind med, der er afgørende,« fortæller Erik Bidstrup.
Advanced Encryption Standard (AES), også kendt som Rijndael, er en blokkrypteringsalgoritme, som er standard i den amerikanske regering. Algoritmen bag er udviklet af de to belgiske kryptografer Joan Daemen og Vincent Rijmen.Kryptering
Termisk støj generer nøgler
Når Zybersafe skal generere nøgler, foregår det ved, at hardwaren lytter efter variationer i termisk støj, altså udsving i temperaturen. Ved at skabe en uforudsigelig generering af nøgler bliver det umuligt for angribere at ‘gætte’ sig frem til nøglerne.
»Temperaturen ændrer sig hele tiden og er tilgængelig hele tiden, så det er et oplagt valg. Der findes to veje at gå, når man skal generere tilfældige tal: enten ved at se på en fysisk proces eller få en algoritme til at lave en pseudo random number generator ved hjælp af matematiske formler. Vi har set eksempler på, at pseudo-nummer-generering er blevet udnyttet til hacking, f.eks. af den russiske casino-mafia. Konceptet med en hardware number generator er, at den er uforudsigelig,« siger Erik Bidstrup
Der findes mange forskellige løsninger til hardware number generator. I den mere eksotiske afdeling bruger det amerikanske hostingselskab Cloudfare en væg af lavalamper. Det fungerer ved, at et kamera tager et billede af væggen hvert millisekund og forvandler billedets pixels til tilfældige tal.
Når der er generet nøgler, så kommer de aldrig ud af de to hardware-bokse, og dermed kan de hverken stjæles eller misplaceres. Når man får to bokse, er de begge klar til at få nøgler. Så udvælges der en, som genererer en nøgle og deler med den anden. Så nøglen forlader kun maskinen een gang, og her har man styr på, at andre ikke lytter med, siger Erik Bidstrup.
Skulle det alligevel ske, at udefrakommende forsøger at bryde ind i en af boksene, er de designet til at ødelægge sig selv.
Zybersafes kildekode er ikke open source, men bliver testet af en uafhængig tredjepart, ligesom Rigshospitalets interne it-afdeling, Center for It, Medico og Telefoni (CIMT) har testet Zybersafes løsning, inden den for alvor blev sat igang.
Skalerer op
Det er stadig forholdsvis få patienter, der får lavet en helgenomsekventering, da det fortsat er en dyr metode. Derfor er det også begrænset, hvad udefrakommende i øjeblikket kan bruge de tekststrenge, som genom-data består af, til.
Lige nu er det faktisk lidt hypotetisk, hvad data kan bruges til af fremmede fortæller Frederik Otzen Bagger.
»De filer, vi får ud af maskinen på processeringsnivau, minder om tekststrenge på 120 karakterer og indeholder ikke personhenførbare data, fx navne, ligesom vi ikke sender cpr-numre sammen med genom-data. Samtidig er der meget få danskere, der har fået kortlagt deres arvemasse.«
I USA har man dog set eksempler, hvor genom-sekventering er brugt i kriminalsager, blandt andet fra den private 23andMe-database.
Men fremadrettet bliver helgenomsekventering mere udbredt, blandt andet fordi Folketinget har etableret Nationalt Genom Center, der skal udvikle en national database over danskernes arvemasse.
Mangler fokus på beskyttelse af fiberforbindelser
Mens sikkerhed fylder meget, når der indkøbes nye maskiner og software, så sendes de nye store datamængder ofte ubeskyttet over fiberforbindelser. Sådan lyder bekymringen fra den danske startup-virksomhed Zybersafe, der udvikler hardware-kryptering, som blandt andet bruges til at kryptere store mængder følsomme DNA-data fra Rigshospitalet.
»Det at beskytte en fiberforbindelse er lidt eksotisk for mange. Når du går ud og køber en fiberinfrastruktur til din virksomhed, så er det meget hastighed, oppetid og stabilitet, der bliver snakket meget om, mens sikkerhed fylder meget lidt. Det er en meget lille andel af de fiberforbindelser, der findes i dag, som faktisk er beskyttet. Mange har en meget hård kontrol med de enheder der eksempelvis bruges i en produktion, men lige så snart du sender dine data ud på den store fibermotorvej, hvor der er en masse fordelerpunkter ude i det åbne landskab, så er data ubeskyttet.«
Ifølge Erik Bidstrup er det nemlig ikke raketvidenskab at hente data ud af en fysisk fiberforbindelse.
»Du skal kunne bøje fiberen for at få data ud af en fiberforbindelse. Det kan du gøre, uden det bliver bemærket, og du kan købe det udstyr, du skal bruge til at bøje en fiber, for omkring 8.000 kroner, ligesom der ligger praktiske guides til hvordan på Youtube. Lige så snart kablet forlader bygningen, så ligger det bare lettilgængeligt under fliserne,« siger Erik Bidstrup.
Han nævner, at der bliver lyttet på fiberforbindelserne dagligt, eksempelvis når fiberleverandørerne skal lave fejlsøgning.
»Når en tekniker skal fejlsøge for at konfiguere et system, får han i princippet adgang til at optage og omsætte følsom data til information,« siger Erik Bidstrup.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.