Syntetiske data skal hjælpe frustrerede forskere med privacy og datadeling

6 kommentarer.  Hop til debatten
Henning Langberg, Rigshospitalet og Thor Hvidbak, Deloitte
Illustration: Tania Andersen.
Tiden er kommet for fiktive data, der kan løse problemer med persondata, privacy og datadeling på tværs af grænser. Det kan give virksomheder og ph.d'er nemmere muligheder end med de ægte data.
1. april kl. 03:45
errorÆldre end 30 dage

Syntetiske data kan i hvert fald et stykke af vejen løse privacy-problemer med persondata i forskningsmæssige sammenhænge. Det mener Thor Hvidbak, som er konsulent i Deloitte og tidligere chef for informationssikkerhed i Region Hovedstaden, og Henning Langberg, innovationschef på Rigshospitalet.

På den nyligt afholdte Offdig-konference gav Henning Langberg et eksempel, hvor machine learning i forbindelse med screening for brystkræft sparer Rigshospitalet for en radiolog.

Et andet eksempel er scanninger af børn eller urolige voksne, hvis bevægelser under en scanning resulterer i uskarpe billeder. Her kan en algoritme gøre de slørede billeder skarpe igen, så patienterne slipper for ubehagelig bedøvelse, der ellers måtte i anvendelse.

Det hele kræver data, som er personfølsomme, og som derfor skal behandles med varsomhed i overensstemmelse med love og regler.

Artiklen fortsætter efter annoncen

Det er almindelig kendt, at sundhedsforskere i Danmark føler, at de drukner i papirarbejde og juristeri. 

»Vi har et akut problem, som truer vores ambitioner om at løfte dansk life science op i verdensklasse. Vi har kapaciteten til at lave meget mere forskning. Men det strander i øjeblikket i papirarbejde og ventetider,« har formanden for lægeforeningens forskningsudvalg, Sanne Thysen, tidligere udtalt til Ingeniøren.

Forskerne herhjemme oplever et tungt bureaukrati, når der skal indhentes data via de videnskabsetiske komiteer, og langsomme svartider.

Som Version2 tidligere har skrevet er der næsten altid 'jackpot' i komiteerne, da tæt på 100 procent af ansøgningerne godkendes – men processen kan i visse tilfælde tage op til seks måneder, og så har et projekt måske overskredet sin deadline. 

Frustrerede forskere

Thor Hvidbak fortæller: 

»Jeg har talt med mange sure og frustrerede forskere.« 

Og her kan de syntetiske datasæt spille en rolle.

Use casen er dog stærkere for startups og udviklere end for forskere, bemærker Thor Hvidbak overfor Version2. 

»Der vil være grænser for, hvor langt forskerne har lyst til at gå med de kunstige data. Men hvis du har ansat en ph.d, der ikke har fået sine data, ville du kunne sætte vedkommende i sving med en analyse-pipeline, teste ting af og arbejde eksplorativt med hypoteser.«

Oplagte use cases er samarbejde omkring udvikling af løsninger med virksomheder og studerende, som i dag næsten ingen muligheder har for at få adgang, mener Thor Hvidbak.

Med udvikling af løsninger kan man komme langt i processen, før man har behov for at validere på de rigtige data.

Syntetiske mennesker

»Syntetiske data er ikke som anonymisering, hvor der tilføjes støj, men skaber en ny kunstig population med næsten samme egenskaber som ægte data,« forklarer Thor Hvidbak.

De kunstige mennesker har næsten samme statistiske egenskaber, som fordeling og så videre, som i de ægte data. Og forhåbningen er, at de syntetiske data kan anvendes med næsten samme resultat, som med de personhenførbare data, til forskning og træning af machine learning-modeller (ML).

Spåkonerne hos Gartner gætter på, at i 2030 vil syntetiske data være flere end ægte data.

Da de nye datasæt ikke er underlagt begrænsninger på grund af persondata, kan de deles og skalere og benchmarke ML-modeller, på tværs af landegrænser. Det sidste giver mulighed for mere robuste modeller, da forskelle i eksempelvis fordeling af data ofte spænder ben, når modeller krydser landegrænser og miljøer. 

Åbne syntetiske datasæt kan også give et grundlag for at sammenligne kvaliteten af algoritmer, hvilket i dag er meget svært Benchmarking kan tillige fungere som en betingelse for videre forskning eller udvikling. Hvis forskerne kan påvise gode resultater med de kunstige data, kan det efterfølgende give mening at anvende de ægte datasæt.

White hats angriber datasæt

Anonymisering handler oftest om at slå individer sammen i grupper og tilføje statistisk støj. Men der er en fare for, at man med smarte algoritmer og eksterne datasæt, som kan købes på det grå marked, alligevel kan gætte på identiteter bag de anonyme datapunkter.

Det skulle være et mindre problem med syntetiske data, mener Thor Hvidbak. Datapunkter repræsenterer fiktive personer og kan ikke ‘trianguleres’ tilbage til identiteten med eksterne datasæt. Men outliers i syntetiske data kan byde på det samme problem. 

Det kunne være datapunkter med en meget høj mand, der bor på en lille ø, fortæller Thor Hvidbak. Sådanne outliers kan fjernes, og nogle gange vil man også tilføje støj til de syntetiske data, og man kan sætte sandsynligheder på, hvor stor risici der er for at afsløre ægte identiteter.

»Der er kommet en guideline fra European Medicines Agency, hvor de har foreslået en bestemt ratio.«

Thor Hvidbak har også prøvet med at sætte white hat-hackere til at angribe datasæt.

GAN-modeller skaber fiktive røntgenbilleder

Én måde at generere syntetiske data er at benytte såkaldte GAN-modeller (Generative Adversarial Network), hvor én algoritme konstruerer fiktive data, mens en anden algoritme bedømmer kvaliteten af data. Det kan være scanninger i forbindelse med Alzheimers og lungebetændelse, hvor der skabes syntetiske billeder. 

De fiktive billeder kan også bruges til at booste eksisterende modeller, altså forbedre deres ydelse. Det er vigtigt at starte med datasæt af høj kvalitet. Man kan ikke skabe brugbare syntetiske data med udgangspunkt i dårlig datakvalitet, lyder formaningen.

Et område, der godt kunne trænge til at blive styrket, er en standardiseret privacy-model, så udviklere og sundhedsfaglige har en rettesnor at holde sig til. Her er Region Sjælland i gang med et arbejde, som Thor Hvidbak håber kunne udmøntes i en ny dansk standard på området, en gang i fremtiden. Det kan også formalisere risikoen for de forskellige typer af angreb, der kan laves på et anonymiseret datasæt.

Thor Hvidbak giver et indlæg om syntetiske data og privacy på V2 SECURITY.

6 kommentarer.  Hop til debatten
Debatten
Log ind for at deltage i debatten.
settingsDebatindstillinger
6
3. april kl. 17:43

Det holdt hårdt.

Men #5 fik vist at fravær af (ekstra) tryk på udgiv ikke giver flere ens indlæg.

Rettelse:

Som man kunne forvente giver fravær af 'Forhåmdsvisning' og mulighed "vindue" for rettelser af indlæg flere utilsiftede fejl i indlæg. Her:

Ref: MIT Kusus 6.172 på Open Course Ware (OCW.MIT.EDU).

Skulle have læst:

Ref: MIT Kursus 6.172 på Open Course Ware (OCW.MIT.EDU).

5
3. april kl. 17:29

Debatsystemet Re: #1

Det er faktisk et lille farveskift i den grønne 'Udgiv'-knap, men om det er nok? Hypotese: Tryk på knappen efter farveskift giver ens indlæg.

Syntetiske datasæt SD

Hvis man set bort fra de udfordringer (problemer), der kan ligge i at generere disse datasæt, synes jeg. det (SD) vil være et nyttigt redskab for udviklere af algoritmer. Man kan luge fejl ud i algoritmer og sikkerhed, samt eftervise "yde-evne" uden risici.

Intel MKL (Math Kernel Library) er et eksempel på "forbedring" af yde-evne, som kan bringe fx matrix-multiplikation op på ca 45% (af teoretisk maximum), hvor utraditionelle metoder som transposition "kun" kan nå op på knap 40%.

Ref: MIT Kusus 6.172 på Open Course Ware (OCW.MIT.EDU).

4
1. april kl. 12:46

Beklager triplepost. Der var ingen feedback overhovedet på tryk på "Udgiv"-knappen.

3
1. april kl. 12:45

Det er jo tegn på et dårligt fungerende system.

Der er sjældent folk i disse komiteer, som ikke har en personlig interesse i at give adgang til data.

Problemet er vel i bund og grund at man netop deler data ud til hvem som helst, der gider at udfylde ansøgningen korrekt. Det klassiske DJØF-svar er jo, også her, øget bureaukratisering.

Hvorfor ikke rent faktisk sætte nogle folk i komiteerne, til at varetage patienternes/borgernes interesser?

2
1. april kl. 12:44

Det er jo tegn på et dårligt fungerende system.

Der er sjældent folk i disse komiteer, som ikke har en personlig interesse i at give adgang til data.

Problemet er vel i bund og grund at man netop deler data ud til hvem som helst, der gider at udfylde ansøgningen korrekt. Det klassiske DJØF-svar er jo, også her, øget bureaukratisering.

Hvorfor ikke rent faktisk sætte nogle folk i komiteerne, til at varetage patienternes/borgernes interesser?

1
1. april kl. 12:00

Det er jo tegn på et dårligt fungerende system.

Der er sjældent folk i disse komiteer, som ikke har en klar interesse i at give adgang til disse data.

Problemet er vel i bund og grund at man netop deler data ud til hvem som helst, der gider at udfylde ansøgningen korrekt. Det klassiske DJØF-svar er jo, også her, øget bureaukratisering.

Hvorfor ikke rent faktisk sætte nogle folk i komiteerne, til at varetage patienternes/borgernes interesser?