Lectio-direktør om kritik af forskeradgang: Gymnasieopgaver indgår kun som data til maskinlæring

10. juli 2019 kl. 05:0527
Lectio-direktør om kritik af forskeradgang: Gymnasieopgaver indgår kun som data til maskinlæring
Illustration: Monkeybusinessimages/Bigstock.
Direktør bag gymnasieplatform forsvarer, at virksomheden har stillet 130.000 opgaver til rådighed for forskere. Det er nemlig ikke elever, det handler om, men ettaller og nuller, lyder det.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Da virksomheden Macom, som udvikler gymnasieplatformen Lectio, stillede 130.000 opgaver til rådighed for forskere til udvikling af programmet Ghostwriter, skete det ifølge Danske Gymnasier uden at indhente samtykke fra skolerne.

»Skolerne har ikke været involveret i beslutningen om at give adgang til opgaverne, og det står ikke beskrevet i vores databehandleraftale, at Macom kan give adgang til disse data,« har formand for Danske Gymnasier Birgitte Vedersø tidligere udtalt til Version2:

»Vi synes, det er utrygt, når der ikke bliver levet op til den databehandleraftale, vi har.«

Sagen kort

Ghostwriter er et program, som ved hjælp af et neuralt netværk vurderer, om en given opgave er skrevet af eleven selv ved at sammenligne opgaven med elevens tidligere afleveringer.

Det neurale netværk er blevet trænet på et datasæt bestående af 130.000 gymnasieopgaver, som Macom har stillet til rådighed for forskerne. Det har vakt bekymring hos Danske Gymnasier, som ikke er blevet taget med på råd.

Programmet er udviklet af forskningsgruppen DIKU-DABAI, som er en del af et projekt startet af Innovationsfonden, som skal fremme brugen af big data både samfundsmæssigt og i erhvervslivet.

Det manglende samtykke er problematisk, for databehandlere har kun lov til at behandle data på instruks fra de dataansvarlige, forklarer Jon Lauritzen, som er partner i advokatfirmaet DLA Piper og specialist i it-ret.

Artiklen fortsætter efter annoncen

Macom bekræfter over for Version2, at firmaet fungerer som databehandler over for gymnasierne, hvilket også fremgår af Macoms egen databehandleraftale.

Macom: »Naturlig forlængelse af antiplagiat-system«

Direktør for Macom, Martin Holbøll, betragter udviklingen af Ghostwriter som en naturlig forlængelse af Lectios eksisterende antiplagiat-system.

Hvis I bruger gymnasieelevernes opgaver som træningssæt til maskinlæring, skal I så ikke aftale det med gymnasierne først?

»Vi har plagiatkontrol i vores software. Det er en af de funktioner, der er. Det har været der længe, og det er en del af dagligdagen på skoler, at opgaver de bliver plagiatkontrolleret. Nu er det så blevet en problemstilling, at folk går ud og køber opgaver på internettet. Så det er en naturlig ting at sige, at plagiatkontrol kunne udvides, så man også kan fange det.«

Artiklen fortsætter efter annoncen

Så fordi gymnasierne er indforstået med, at I laver plagiatkontrol, så er de også med på, at I udfører maskinlæring på opgaverne – at I bruger det som træningssæt?

»Det skal forstås sådan, at vi er en del af DABAI-projektet. Forskere i det projekt kan ligesom vores ansatte arbejde med problemstillinger. Det her er så en problemstilling blandt mange.«

»Vi snakker hele tiden med skolerne«

Kan I bedrive forskning på de data, I får fra gymnasierne, til at forbedre jeres produkt, uden at snakke med gymnasierne om det?

»Forskningen bliver drevet af forskere i regi af DABAI-projektet.«

Men har gymnasierne noget at skulle have sagt i forhold til det her projekt?

»Selvfølgelig har de det. Det er dem, der er vores kunder. Det er dem, der stiller krav til os.«

Jeg har spurgt Danske Gymnasier, og de havde ingen anelse om, at det her var foregået.

»Nej, men det er jo en interesseorganisation. Vi snakker med vores kunder, skolerne.«

Artiklen fortsætter efter annoncen

Har I så informeret de individuelle gymnasier om projektet?

»Vi snakker selvfølgelig løbende med vores kunder. Vi er en virksomhed, selvfølgelig snakker vi med vores kunder. Den sidste melding, jeg fik fra Danske Gymnasier, er, at de ikke snakker med leverandører. Så der er vel ikke noget underligt i, at de ikke er inde over.«

Har I kontaktet gymnasierne for at fortælle dem om, at de her opgaver bliver brugt til det her?

»Vi snakker hele tiden med skolerne. Vi laver løbende forbedringer til vores software på en daglig basis.«

Har I specifikt fortalt dem om det her projekt?

»Svaret er, at vi snakker hele tiden med vores skoler. Der har været en sag, hvor en rækker skoler ønskede ændringer i den måde vi viste data på. Vi efterkommer naturligvis de ønsker, der er.«

Ingen anonymisering fra Macoms side

Ifølge advokat Jon Lauritzen er Macom forpligtet til at anonymisere opgaverne, før de bliver gjort tilgængelige for tredjeparter, men det er ikke klart, hvordan det skal foregå. Sådan en anonymisering vil nemlig i sig selv kræve tilladelse fra den dataansvarlige, som er de enkelte gymnasier.

Martin Holbøll mener, er dataene er anonymiserede i den forstand, at de indgår som data til et træningssæt, men ikke har været tilgængelige for forskerne at læse direkte.

»Dataene er blevet anonymiseret i den forstand, at de kun indgår som datapunkter til maskinlæring,« siger han.

»Forskerne har ikke haft adgang til at læse de individuelle opgaver. Hvis de kunne det, er det klart at det ville være et brud på aftalen mellem akademia og industrien.«

Af den videnskabelige artikel, der er skrevet om Ghostwriters udvikling, fremgår det, at forskerne selv har forsøgt at anonymisere dataene ved automatisk at fjerne alle egennavne i opgaveteksterne.

Opt-out ikke relevant

For potentielt personhenførbare data er det nødvendigt at indhente samtykke fra de registrerede – altså eleverne – for at deres data må bruges til formål som maskinlæring.

Men det er ifølge Martin Holbøll misforstået at tro, at programmet handler om elevers opgaver, og derfor er det heller ikke relevant at snakke om opt-out, mener han.

Hvis elever er bekymrede over, at deres opgaver bliver brugt i denne sammenhæng, har de så nogen mulighed for at opt'e-ud fra, at deres opgaver bliver brugt?

»Jeg synes det her, det er tendentiøst. Du antager, at det er en elevopgave. Jeg vil sige, det tangerer altså noget, der er lidt skævt.«

Siger du, at gymnasieelevernes opgaver ikke bliver brugt?

»Der er blevet brugt data til at lave forskning på, ja. Og du ved godt, at data består af 0- og 1-taller, i en binær verden. Det er datapunkter, vi snakker om. Vi snakker ikke elever her.«

Men man kan sige, at de data repræsenterer nogle opgaver, som elever har skrevet?

»’Man kan sige’, altså hvis man vil sige det, så må man sige ’jeg forstår det sådan, jeg postulerer dette’ og den slags ting. En anden ting er at sige, ’jeg vil egentlig godt have nogle fakta’, og så tager man fat i dem, som har med fakta at gøre, forskere. Det med tendentiøst at begynde at sige ting, det er ikke fakta.«

Det er jo et simpelt spørgsmål, om gymnasieeleverne kan fravælge at få brugt deres opgaver?

»Men ud fra en præmis om, at det er elever, det her handler om. Det er det ikke.«

Ikke udleveret, men stillet til rådighed

Martin Holbøll sætter fokus på, at de pågældende data ikke er blevet udleveret til forskerne, men er stillet til rådighed i virksomhedens datarum.

»Vi har et datalokale, hvor forskere kan komme og samarbejde med os. Forskerne kan ikke tage data med sig ud af vores datarum,« siger han.

»Forskerne har adgang til en datamængde, som er aftalt forud. Det kommer an på, hvad det specifikke forskningsprojekt handler om. En delmængde af de data er elevopgaver.«

27 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
27
11. juli 2019 kl. 19:56

Tak Bjarne

Fin opsummering af god kultur og en tilsyneladende mangel på samme.

24
11. juli 2019 kl. 09:12

Jeg ville være interesseret i at høre deres vurdering af sagen...

Men det er tydeligt at kulturen er nået et punkt hvor idéskaberne nærmest er immune overfor angreb der omhandler privatlivets fred.

1M $ question: hvordan får vi egentlig bevæget os i en retning der ikke underminerer vores egne rettigheder og autonomi, og i en retning hvor vi stadig kan høste frugterne af den teknologiske udvikling?

Skal vi snart lave bannere?

23
11. juli 2019 kl. 08:26

med de i denne lov angivne indskrænkninger

Det er jo ofte detop her, de virkelige interessante ting står...

En studerende, Kristian Libo, gav forleden disse oplysninger om forholdene på hans gymnasium:https://www.version2.dk/artikel/lectio-stiller-130000-opgaver-raadighed-forskere-uden-at-informere-gymnasier-eller-elever#comment-397562

Altså, at eleverne skriver under på, at hvis de skal gøre ophavsret gældende, skal det ske indenfor 2 måneder - herefter overgår ejerskabet til gymnasiet. Men han mener så også, at de færreste elever når at blive opmærksomme på det problematiske i dette. Og er det mon "lovmedholdeligt" at sætte eleverne i den situation at skulle være opmærksom på sådanne betingelser op til eksamen? Jeg synes ikke, det er i orden.

Og det er ikke et ligegyldigt spørgsmål. Jeg kender personligt en elev, som besvarede den skriftlige danskopgave til Realeksamen (ja, det er længe siden) med et digt, fik topkarakter, og digtet havnede i et blad. Det er jo ikke et tænkt scenarie, at den slags faktisk kan indebære en vis økonomi - eller en rigtigt god besvarelse kan genbruges som f.eks. en kronik - som også indebærer betaling. Og i hvert fald kan det være rart at kunne bruge sit "værk" på den måde, betaling eller ej.

Så noget tyder på lidt uklare juridiske forhold på dette felt? Men at det skulle være databehandler, der råder over elevernes besvarelser - det er i hvert fald for mig at se helt galt.

22
11. juli 2019 kl. 00:57

Det er vist ikke helt så sort hvidt. Ophavsretten kaldes for "copyright" på engelsk

Jurister er ofte meget hurtige til at påpege at netop dette udgør en stor forskel i det filosofiske fundament ved dansk og amerikansk ophavsret (selvom det er 30 år siden at USA ratificerede Bern-konventionen). Så skal vi ikke nøjes med at snakke dansk lov i form af ophavsretslovens §2 og §4:

§ 2. Ophavsretten medfører, med de i denne lov angivne indskrænkninger, eneret til at råde over værket ved at fremstille eksemplarer af det og ved at gøre det tilgængeligt for almenheden i oprindelig eller ændret skikkelse, i oversættelse, omarbejdelse i anden litteratur- eller kunstart eller i anden teknik.
§ 4. Den, som oversætter, omarbejder eller på anden måde bearbejder et værk, herunder overfører det til en anden litteratur‑ eller kunstart, har ophavsret til værket i denne skikkelse, men kan ikke råde over det på en måde, som strider mod ophavsretten til det oprindelige værk.

21
11. juli 2019 kl. 00:05

Ejerskabet til en bestemt opgave tilhører den enkelte elev/forfatter og længere er den historie ikke. Hvad en opgave derefter må bruges til - herunder optræning af programmel, bestemmes af forfatteren og ikke andre.

Det er vist ikke helt så sort hvidt. Ophavsretten kaldes for "copyright" på engelsk, det vil sige retten til at kopiere. At du har ophavsret handler om at kun du har lov til at lave en kopi. Ikke at du nødvendigvis kan bestemme hvad den kopi kan bruges til, såfremt du har givet den videre til en anden. Du kan lave en kontrakt, og få modtageren til at underskrive denne, inden du giver ham en kopi af dit værk. I den kontrakt kan du stille krav til anvendelsen.

Eleverne har ikke lavet nogen kontrakt med skolen, men har givet skolen en kopi. Det giver ikke skolen lov til at lave yderligere kopier, ud over det der er implicit forstået ved at du giver dem din opgave. Men de kan muligvis godt bruge den ene kopi til alt muligt mærkeligt, herunder at oplære nogle algoritmer.

Det er også rimeligt trivielt for skolen bare at bede eleverne underskrive en kontrakt og erklære at uden underskrift vil opgaven ikke blive bedømt og eleven vil derfor ikke kunne fortsætte studiet. Det er svært at vinde den her, hvis de mener det.

Jeg siger hermed ikke at de ikke har brudt loven. Bare at jura er kompliceret.

20
10. juli 2019 kl. 23:48

der skal vel være en lov eller betænkning der giver dem lov til at kræve ophavsretten overgivet. Det er helt sikkert ikke noget det enkelte gymnasie kan opfinde.

På universiteterne har de studerende fuld ophavsret til deres opgaver og projektopgaver og kan derved frit kommercialisere dem hvis de har lyst - eller hvad de end vil. Der kan selvfølgelig være afvigelser ifm samarbejde med virksomheder, NDAer osv, men det skal være afklaret på forhånd.

Det samme gælder ikke for de ansatte

19
10. juli 2019 kl. 18:50

Er der nogen der ved om der er krav til samtykke til videregivelse af ens ophavsret? I GDPR er der jo ret klare regler for at man ikke kan gemme et samtykke på side 98 i en eller anden ulæselig Terms of Service.

Men hvis mit gymnasium og/eller Lectio har skrevet at jeg overdrager alle mine ophavsrettigheder til dem, er der så noget at komme efter? For typisk vil det jo være er krav for at kunne aflevere opgaver og derved gennemføre gymnasiet.

18
10. juli 2019 kl. 18:42

"Jeg har spurgt Danske Gymnasier, og de havde ingen anelse om, at det her var foregået. »Nej, men det er jo en interesseorganisation. Vi snakker med vores kunder, skolerne.«"

Så man betragter skolerne som kunderne - ikke Danske Gymnasier, der som dataansvarlig har bestilt MaComs/Lectios ydelser? Han får det nærmest til at lyde som om, det ikke rager dataansvarlige, hvad MaCom/Lectio gør med data.

Og hvem er det, der "stiller til rådighed" for hvem? Det hed i den tidligere V2-artikel, og vist også i forskningsartiklen, at MaCom havde (meget venligt, måtte man forstå) stillet disse opgavesæt til rådighed for forskerne. Men i følge denne artikel lyder det da mere som om, det er DABAI og forskerne, der har leveret en ydelse til Lectio/MaCom? Er det ligefrem bestillingsarbejde? Eller får MaCom denne ydelse til forretningsudvikling gratis? Og hvem ejer egentligt Ghostwriter-programmet? Forskerne eller MaCom eller Universitetet?

Sagen er et eksempel på, at disse offentligt-private samarbejder er gennemrådne. Diverse kontrakter om projektet er garanteret stort set mørklagte som forretningshemmeligheder eller "forskeres originale ideer".

16
10. juli 2019 kl. 15:52

Det er jo lige før at man skal til at have en juridisk klamamse på sine opgaver: "© Elevens navn. Alle rettigheder forbeholdes, herunder retten til at benytte værket til træning af algoritmer."

Heldigvis behøver man ikke skrive den slags på det man laver for at copyright er gældende, ihvertfald ikke herhjemme.

Nu ved jeg ikke hvilket format opgaverne bliver afleveret i, men man kunne måske vælge at 'dekorere' teksten med en masse usynlig tekst som laver ravage i træningen af netværket. Hvis det er docx, odf, pdf el. lign. så burde det kunne lade sig gøre.

15
10. juli 2019 kl. 15:42

Det er jo lige før at man skal til at have en juridisk klamamse på sine opgaver: "© Elevens navn. Alle rettigheder forbeholdes, herunder retten til at benytte værket til træning af algoritmer."

14
10. juli 2019 kl. 15:20

Eftersom jeg befinder mig indendøre er det sandsynligvis ikke tilfældet. Alligevel kommer jeg i tvivl, efter læsning af ovenstående. Er det mon en ny surrealistisk sommerrevy her på Version2?

Nuvel. Nu skal man tydeligvis vare sig for at råde hr. Holbøll til noget som helst, idet han så egenrådigt råder på egen hånd, og dette tilsyneladende uden smålig hensyntagen til sager som lovgivning eller kundens behov (f.eks. for opt-out eller at blive spurgt om lov, forlods).

Alligevel kommer jeg til at tænke på en disciplin, der sandsynligvis indgår i de 130.000 elevarbejder, han råder over, nemlig den delopgave, der går ud på, at de skal lave en ”diskussion”.

Det går i al sin enkelhed ud på, at lære de unge mennesker at se en sag fra flere vinkler og perspektiver. Således de får ny indsigt og udvider deres horisont. Så man ikke kun ser tingene ud fra sin egen næsetip, så at sige, men prøver at sætte sig i andres sted, f.eks. ”På den ene side, kan man sige… Omvendt, på den anden side set…”

Nogle kender det måske fra USA, hvor de bruger ”pro & con”, altså at indtage forskellige standpunkter, prøve at tale for eller imod en sag eller synspunkt. Det har samme effekt – at se sagen fra flere vinkler, således man udvider sin horisont, får ny indsigt, bliver klogere og måske også mere rummelig.

Det virker ikke rigtig til at være Holbølls kop te, dette. At sætte sig i kundens sted. Og det kan være, at det bliver hans banemand her. Your dictatorship?

Det forekommer mig, at der er en kløft her, som er alt for mægtig at skræve over. Det er simpelthen ikke umagen værd.

Hvis jeg var kunden, ville jeg se at få benene på nakken i en fart. Undersøge markedet for alternativer og komme ud af dette samarbejde.

13
10. juli 2019 kl. 13:23

Tekst lagres selvfølgelig som bogstaver, hver med et vist antal bit. Begrebet bit er imidlertid meget bredere, idet antal bit også anvendes til at angive informationen i et signal. Information blev indført af Claude Shannon (1916-2001) som negativ relativ entropi udtrykt ved logaritmen med grundtallet 2 (log2) i stedet for med grundtallet 10 (log10), de rigtige digitale fingres grundtal. Den mest populære maskinlæring er baseret på biblioteket Keras, som også bærer navnet TensorFlow. Begrebet "tensor" stammer Bernhard Riemanns (C.F. Gauss' kvikke student) (1826-1866) differentialgeometri, som kaldes den riemannske geometri. En tekst opfattes som geometriske figurer i et Riemannsk rum. Transformationen mellem et stort datasæt og et træningssæt sker ved gentagne uendeligt mange gange differentiale transformationer. Fordelen ved metoden er, at den garanterer en optimal bestemmelse af det dybe neurale netværks parametre. Chollet, forfatter af Keras, har studeret fysik. Einsteins generelle relativitetsteori er baseret på den riemannske geometri. Den moderne Big Bang kosmologi er også baseret på riemannsk geometri. AI (som Google, Chollets arbejdsgiver, kalder Keras) er blevet så populær på grund af den hurtige og entydige optimering af det neurale netværk, men et neuralt netværk er stadig en sort matematisk kasse uden en fysisk teori. Der har bredt sig den opfattelse, at data er det samme som viden. Man behøver egentlig ikke nogen teori for, hvordan den fysiske verden fungerer. Men Chollet selv ved udmærket, at dette er helt forkert.

12
10. juli 2019 kl. 11:57

Ejerskabet til en bestemt opgave tilhører den enkelte elev/forfatter og længere er den historie ikke. Hvad en opgave derefter må bruges til - herunder optræning af programmel, bestemmes af forfatteren og ikke andre.

Det er muligt at det Direktør for Macom, Martin Holbøll siger omkring maskinlæring på opgaverne er korrekt, det er blot sagen uvedkommende.

Min personlige vurdering er at Macom klart har overtrådt flere love, herunder manglende samtykke ift. GDPR og copyright-lovgivningen

11
10. juli 2019 kl. 11:08

Han er tydeligvis ikke glad for at svare på spørgsmålene men han kunne godt bruge noget træning i at svare ved siden af uden at det er så tydeligt. Det kan være at han skulle spørge nogle af vores politikere hvem der har lært dem kunsten.

Hvis der er personfølsomme oplysninger i opgaverne så er forskerne naturligvis nødt til at anonymisere opgaverne inden de bruger det til at træne et neuralt net - eller vil de personfølsomme oplysninger jo vandre med ind i netværket og kan slippe ud på uheldig vis som xkcd striben fint illustrerer. Noget andet er om eleverne ikke har ophavsret på de opgaver de laver? Eller fraskriver de sig al ophavsret ved aflevering? Hvis ikke, så er det jo bare endnu et argument for at man ikke kan benytte opgaverne som 'datapunkter' lige meget om der er personfølsomme oplysninger i eller ej.

Det kan også være at han ikke kan svare fornuftigt fordi han ikke helt forstår hvordan machine learning virker, men det kan jeg næsten ikke tro når han trods alt er direktør for foretagenet.

10
10. juli 2019 kl. 10:30

"Det er nemlig ikke dig og elskerindens pornovideoer, det handler om, men ettaller og nuller, lyder det."

Med den arrogance der bliver lagt for dagen, håber jeg godt nok at Macom kommer til at brænde for det her. Og/eller at nogen finder noget juicy stuff om Martin Holbøll de kan lække – hvis det bliver gjort i digital form er det jo bare ettaller og nuller.

9
10. juli 2019 kl. 10:28

Fra artiklen:

»Forskerne har ikke haft adgang til at læse de individuelle opgaver. Hvis de kunne det, er det klart at det ville være et brud på aftalen mellem akademia og industrien.«

Det bliver jo så direkte modsagt af forskerne selv i deres artikel. For ikke alene har forskerne haft adgang til at læse de individuelle opgaver, de har også følt det så forkert, at de har benyttet deres adgang til de individuelle opgaver til at trods alt at lave et forsøg på anonymisering.

Også fra artiklen:

Forskere i det projekt kan ligesom vores ansatte arbejde med problemstillinger. Det her er så en problemstilling blandt mange.

og

Vi har et datalokale, hvor forskere kan komme og samarbejde med os.

Sidder Macoms medarbejdere og bruger produktionsdata til andet end driftsformål?!! Det kan godt være, at jeg er gammel, men jeg er opdraget med, at man holder drift og udvikling adskilt. Helt adskilt. Og ikke bare fordi at der ofte er persondata i produktion, men også fordi at kunders forretning og data er noget, som man behandler med respekt og i fortrolighed. Der er vist noget helt grundlæggende i vejen med kulturen. At man så også lukker forskere ind (og giver dem så meget frihed, at man end ikke er klar over, at de sidder og ændrer på data i "datarummet" - f.eks. ovennævnte forsøg på anonymisering) kan jo nok føres tilbage til denne kultur.

8
10. juli 2019 kl. 10:07

Hvis man har udeladt elevens navn og andet formalia (persondata), så det bare er de "rå" opgaver der er hældt i maskinen, så er det næppe omfattet af GDPR.

Det er tidligere kommet frem at selve opgaverne i nogle tilfælde indeholder persondata, yderligere er det kommet frem at det har været forskerne selv der har anonymiseret opgaverne.

Det burde være indlysende at opgaverne kan indeholde persondata. Som jeg ser det er denne situation sket fordi nogle it-personer ikke har indsigt i deres egen manglende GDPR viden.

7
10. juli 2019 kl. 09:27

Min pointe er, at det, at noget er "1 og 0", ikke betyder, at GDPR og databeskyttelseslovgivning ikke gælder for det, sådan som Holbøll lader til at mene. Ikke i mine øjne, i hvert fald - det er en meget søgt skelnen.

Det afhænger af hvad der er hældt i maskinen. Som jeg læser det her på version2, er det bare omtalt som "opgaverne". Der er ikke nævnt noget om hvilken stand "opgaverne" er i. Hvis man har udeladt elevens navn og andet formalia (persondata), så det bare er de "rå" opgaver der er hældt i maskinen, så er det næppe omfattet af GDPR.

Men derfor kan det sagtens være det er sket brud på andre aftaler og regler.

6
10. juli 2019 kl. 09:14

Fra artiklen:

»Dataene er blevet anonymiseret i den forstand, at de kun indgår som datapunkter til maskinlæring,« siger han.

Det er noget vrøvl. At man stopper data ind i en sort kasse, som man ikke lige selv kan gennemskue, er ikke det samme som anonymisering.

Lad os tage den fra den humoristiske side: https://xkcd.com/2169/

Det er ikke noget, som jeg har kunnet finde meget forskning om; det giver åbenbart flere point at finde på hurtige "løsninger" end at kigge grundigt på problemer ved samme. Men der findes trods alt nogle forskningsartikler (og der kommer flere), som viser præcist det, som Randall Munroe har lavet til en stribe; man kan ofte udtrække overraskende mange detaljer om træningsdata fra "den sorte kasse" efterfølgende, hvis bare man ved, hvordan man kan spørge.

Og det er vel heller ikke overraskende; maskinlæring er noget, som man har fundet på for kunne lave forudsigelser, ikke for at kunne anonymisere. Hvis det tilfældigvis skulle lykkedes at anonymisere ved at træne et maskinlærningssystem, så er det en tilfældighed, og ikke noget, som man på nogen måde kan regne med.

5
10. juli 2019 kl. 07:59

Tak for svar, Mads Bendixen.

Min pointe er, at det, at noget er "1 og 0", ikke betyder, at GDPR og databeskyttelseslovgivning ikke gælder for det, sådan som Holbøll lader til at mene. Ikke i mine øjne, i hvert fald - det er en meget søgt skelnen.

3
10. juli 2019 kl. 07:25

Hele datalovgivningen og GDPR handler om ettaller og nuller - betyder det så, at den ikke gælder?

2
10. juli 2019 kl. 07:22

Det er nemlig ikke elever det handler om, men ettaller og nuller, lyder det."

Lige præcist det argument er en af overvågningskapitalismens foretrukne påstande, siger Shohsana Zuboff i "The Age of Surveilance Capitalism". Og hun gennemhuller netop det argument, i det det reducerer menneskers liv og oplevelser til ettaller og nuller - og ødelægger derved deres menneskelighed. Man dehumaniseer sine ofre, og fratager dem derved deres grundlæggende rettigheder som mennesker med ret til privatliv. Meget bekvemt for firmaerne - men et overgreb mod ofrene.

Og det er jo også tydeligt, at dette argument blot er et forsøg på at omgå juridiske begrænsninger....

Og det fremgår også, at MaCom forsøger at undskylde sig med "legitime interesser" - ganske som elev Lukas Tholander så klogt forudså i går:https://www.version2.dk/artikel/lectio-stiller-130000-opgaver-raadighed-forskere-uden-at-informere-gymnasier-eller-elever#comment-397609

Netop dette argument anfører Zuboff vil blive brugt som rambuk til at undergrave de beskyttende effekter af GDPR: At man altid vil kunne finde/opfinde en "legitim interesse", som man så kan påstå overtrumfer retten til privatliv. I følge Zuboff er verdens dyreste og bedste advikatfirmaer allerede igang med at finpudse denne argumentation - til brug for verdens overvågningskapitalister, når der skal dæmmes op for GDPR's hærgen rundt om i deres markeder.

Martin Holbøll modsiger i øvrigt forskernes egne forklaringer om, at det er dem selv, der på en eller anden uklar måde "anonymiserer". Hvem har ret?

Og som en interessant kommentar til artiklen i går gør opmærksom på: Hvis hele øvelsen går ud på at identificere "snydere", hvordan kan man så forhindre, at dette også kan anvendes til at reidentificere elever, selv om opgaverne skulle være "anopnymiserede"?

For mig at se afslører interviewet også, at der er tale om forretnings/produktudvikling - ikke forskning. Man har lovet gymnasierne et produkt - plagiatkontrol - og så må man udvikle dette produkt. Der er vel ingen egentlig forskning i det - bare træning af en algoritme?

Og det fremgår også tydeligt, hvor sammenviklet private interesser her er med den såkaldte "forskning". De er nærmest ikke til at skelne fra hinanden. Er forskerne mon også lønnede/støttede af MaCom?

Godt interview - det bekommer tydeligtvis ikke Martin Holbøll vel, at Rune bider sig fast i haserne....

1
10. juli 2019 kl. 07:15

Hvordan kan man slippe udenom et så simpelt ja-nej spørgsmål,

Hvis I bruger gymnasieelevernes opgaver som træningssæt til maskinlæring, skal I så ikke aftale det med gymnasierne først?

Det lyder for mig som om, at han godt kan fornemme, at han er på dybt vand.