Den næste GDPR-front: Hvordan lærer vi AI at glemme de rigtige data?

Illustration: digitalista | Bigstock
AI’s uovertrufne hukommelse er et kæmpe privacyproblem, vurderer sikkerhedsguru.

Med implementeringen af GDPR er privacy pludselig blevet et emne, selv små selskaber er nødt til at tage alvorligt, hvis de vil handle i og med EU. Det har skabt en række nye tilgangsmåder og procedurer, men det giver også en masse nye udfordringer.

Blandt andet er der algoritmer overalt, der arbejder med og behandler persondata.

Læs også: Etiske intentioner er ikke nok ved kunstig intelligens

Algoritmerne er ikke designet til at glemme, men til at huske og lære af al den data, der kværner igennem. Men hvis de data er persondata, er det ikke nødvendigvis kompatibelt med loven om 'retten til at blive glemt', fremgår det af et indlæg hos Wired.

Envejs-data

Skribenten bag indlægget er Darren Shou, som til daglig er forskningschef hos sikkerhedsfirmaet Symantec.

Han forklarer, at machine learning-systemer ofte er en envejskommunikation, hvad data angår.

Man føder data ind i systemer, men derefter kan det være svært at trække dem ud igen - i hvert fald det, som algoritmerne har lært af dem.

Læs også: Persondata lækket 90.000 gange i EU på ét år - mindst

Det rejser et afgørende privacy-spørgsmål: Hvordan lærer man algoritmerne at glemme persondata uden at gøre dem ubrugelige?

Værst for unge generationer

Spørgsmålet er især interessant for den seneste generation, der er vokset op med AI og overvågning overalt.

Normalt, argumenterer Darren Shou, laver børn fejl og eksperimenterer. Det accepterer samfundet som en del af det at vokse op. Så tilgivende er AI ikke.

Læs også: Leder: Stop den lemfældige brug af vores persondata

Så med digitalisering og AI kan det ændre sig. Et universitet, der sidder og gennemgår ansøgninger, kan finde problematiske billeder af ansøgeren på nettet, og en kommende arbejdsgiver snubler måske over en lydoptagelse fra en digital assistent.

»AI-generationen har brug for retten til at blive glemt,« som han skriver.

Kan tvinges til at sladre

Algoritmernes store hukommelse er blandt andet et privacy-problem, fordi forskning ifølge Darren Shou har vist, at algoritmer kan ‘tortureres’ (PDF) til at afgive de data, de ligger inde med.

Derfor roser han nogle af de initiativer, der allerede er i gang på området, og opfordrer lovgivere og andre interessenter til at tænke privacy ind i AI.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (2)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Bjarne Nielsen

Det virker til at være en almindelig fejl-antagelse, at man kan træne algoritmer på ikke-anonymiserede data, og så vil detaljedata på magisk vis forsvinde undervejs, og resultatet effektivt blive fuldt anonymt.

Jeg har kun kort kigget kort på "tortur"-dokumentet, og det ser ud til at fokusere på ansigtsgenkendelse. Men jeg har tidligere læst en artikel, hvor man også formåede at udtrække overraskende og afslørende træningsdata. Deres eksempel var social security number, og det var selvom algoritmen slet ikke burde have interesse i den slags oplysninger; den var trænet til noget, hvor det burde være irrelevant. Deres eksperiment kiggede også på overtræning, og det var ikke betydende.

Det er derfor ikke kun, når nogen vil "glemmes", at der er udfordringer. Det er med anonymisering i det hele taget.

Det kan sikkert løses, men det kræver som minimum at man tager hovedet væk fra dets nuværende placering under armen.

PS: Der her minder mig om illustrationen af problemerne med ECB mode, hvor et krypteret billede af den kære Tux resulterede i noget, som afslørede meget mere end man skulle tro:

Billedet er taget herfra: https://blog.filippo.io/the-ecb-penguin/

Der er også et nærmest Andy Warhol agtigt billede, hvor der er brugt forskellige nøgler.

  • 1
  • 0
Lars Christensen

Det er en spøjs artikel, og en besynderlig indgang til hvor problemerne ligger.

Algoritmer skabes af mennesker, til at løse et givet problem indenfor nogle helt fastlåste rammer - det kan vi nok være enige om, medmindre vi tror at AI selv kan skrive sin algoritme!

ALLE algoritmer består som udgangspunkt i sortering af en eller anden slags data.

Såfremt algoritmens resultater ikke længere overholder den gældende lovgivning, skal algoritmen skrives om.

Hvis vi hopper over hvor gærdet er lavest og lægger et ekstralag ovenpå algoritmen med f.eks en tidsbegrænsning af hvor længe et givet ord må optræde i algoritmen, så kan dette ekstralag give utilsigtede forstyrrelser - lidt som vi så ved århundrede skiftet, hvor softwaren pr. definition ikke var indstillet til at acceptere andet end 19xx.

Hvert eneste ekstralag laver rav i gaden og bør kun tillægges, når alt andet kikser. Der er kun en farbar vej - skriv en ny algoritme.

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize