DIKU-professor afviser problemer med dataetikken i algoritme til at opdage købte opgaver

Illustration: Bigstock
Et nyt værktøj udviklet på KU bruger maskinlæring til at identificere opgaver, som ikke er skrevet af eleven selv. Det kræver adgang til elevernes opgaver, men DIKU-professor Stephen Alstrup afviser, at der er problemer med dataetikken.

Programmet Ghostwriter bruger maskinlæring til at vurdere, om en opgave afleveret af en gymnasieelev er skrevet af eleven selv, eller købt til lejligheden på internettet.

Programmet er udviklet på Københavns Universitet, og gør brug af et såkaldt siamesisk netværk, en maskinlæringsteknik hvor to inputs kører igennem identiske neurale netværk, hvorefter outputtet kan sammenlignes til klassifikation eller ensartethed.

Læs også: S: Den Digitale Prøvevagt vender ikke tilbage i den nuværende form

I dette tilfælde bliver en opgave afleveret af en elev sammenlignet med elevens tidligere opgaver, og hvis skrivestilen er forskellig nok, registrerer programmet det.

Ligesom plagiattjek

Ghostwriters siamesiske netværk er trænet på 130.000 opgaver fra 10.000 forskellige gymnasieelever. Træningssættet er stillet til rådighed af virksomheden Macom, som leverer platformen Lectio til de danske gymnasier.

I en række tweets satte lektor i digital forvaltning ved Københavns Universitet Hanne Marie Motzfeldt spørgsmålstegn ved, om programmet lovligt kan rulles ud.

I et siden slettet tweet svarede Stephen Alstrup, leder af forskningscentret DIKU-DABAI, hvor Ghostwriter er blevet udviklet, at der er 120 % styr på det.

Til Version2 uddyber han:

»Det svarer til de systemer, man har brugt i skolevæsnet i mange år til at finde plagiat. Det søger alles opgaver igennem for at finde ud af, om en lignende tekst dukker op hos en anden elev. Ghostwriter søger dine egne opgaver igennem for at se, om de ligner den tekst, du nu har afleveret.«

Men er det ikke problem, at det kan være svært at finde ud af, præcist hvorfor en maskinlæringsalgoritme vurderer, at en opgave er købt ind, mens en anden ikke er det?

»Det er en myte, at bare fordi man har brugt et neuralt netværk, så er det en black-box, som vi ikke ved hvorfor den gør, det den gør,« siger han.

»Et af mange tricks består i følgende simple tilgang, hvor man ”bare” kombinerer to løsninger. Man vælger den bedste algoritme af hensyn til præcision. Hvis den ikke er god til at begrunde resultatet, kører man ligeledes den algoritme, der er god til at begrunde. Men den sidstnævnte algoritme beder man så kun at se på udfaldsrummet, der er kendt af den første algoritme.«

90 procent træfsikkerhed… sådan da

I forskningsartiklen om Ghostwriter, skriver holdet bag programmet, at det har en præcision på 0,875 – lige knap 90 procent.

Men det skal i den sammenhæng tages med, at antallet af købte artikler kan påvirke hvor meget, man faktisk kan stole på algoritmens resultater. De næsten 90 procents præcision er nemlig over alle undersøgte opgaver, mens billedet kan være noget anderledes, hvis man kun kigger på dem, programmet udpeger som snydere.

Hvis man forestiller sig en situation, hvor en ud af hundrede opgaver bliver købt på nettet, vil et program med 90 procents træfsikkerhed stadig finde omtrent 10 opgaver, det mener, er blevet købt, per hundrede den tjekker igennem. Det kan forekomme paradoksalt, men i sådan en situation, vil et program med 90 procents træfsikkerhed kun have ret hver tiende gang, det vurderer en opgave er blevet købt.

Stephen Alstrup anerkender også den problemstilling, men han mener, at det kan håndteres med en finjustering af algoritmen.

»Det er fuldstændigt rigtigt, og der skal tunes, så den passer til det,« siger han.

Så hvis den kommer i produktion, så vil I justere algoritmen, så den vil have en højere tærskel for at markere en opgave som skrevet af en ghostwriter?

»Absolut. Det er også først når det kommer i produktion, at du begynder at få tunet de sidste ting ind.«

Han påpeger også, at han aldrig mener, algoritmen alene skal bruges som begrundelse for en anklage om snyd mod en elev.

Endnu ikke samlet op

Ghostwriter er ikke på nuværende tidspunkt i produktion, men P.hd.-studerende Stephan Lorenzen, som også har arbejdet på projektet, tror på, at det vil blive taget i brug.

»Jeg tror, det er realistisk, at gymnasierne tager det i brug på et tidspunkt. Men før de gør det, skal man have en etisk diskussion af, hvordan teknologien anvendes. Resultatet, som programmet kommer frem til, skal aldrig stå alene, men kun være med til at underbygge en mistanke om snyd,« siger han i en pressemeddelelse fra Københavns Universitet.

Stephen Alstrup håber også at systemet bliver taget i brug.

»Der er to ting, der skal ske, før Ghostwriter kommer i produktion. Gymnasierne skal forespørge det, og firmaerne skal ville levere det,« siger han.

Indtil videre er der ikke nogen gymnasier, som har meldt sig til brugen af Ghostwriter, og spørgsmålet er, om gymnasierne tør kaste sig ud i et projekt, som bruger maskinlæring på elevernes data.

»Version2-hetz«

I dag er Stephen Alstrup kritisk over for mediernes – specielt Version2’s – dækning af brugen af maskinlæring og big data i det offentlige. Et tidligere projekt ledet af Stephen Alstrup brugte maskinlæring til at forudsige hvilke elever, der med høj sandsynlighed ville droppe ud.

Version2 har omtalt systemet i en artikel i 2014 og efterfølgende i et par artikler i 2015.

I 2014 beskrev Version2, hvordan en datalogistuderende i forbindelse med sit kandidatspeciale i samarbejde med softwarefirmaet Macom, havde udviklet et dataanalyse-værktøj til at forudsige, hvilke elever der ville droppe ud af gymnasiet indenfor de kommende tre måneder.

Læs også: Big Data-værktøj rykker ind i gymnasierne og fortæller hvem der dropper ud

I 2015 fortalte Version2, hvordan dropout-funktionen kun nåede at være implementeret i omkring en uge i 2014 i Macoms Lectio-platform før den blev fjernet som følge af et krav fra Danske Gymnasier. Her havde man læst om systemet i Version2’s artikel i 2014.

Læs også: It-system til varsel af elevfrafald blev øjeblikkeligt standset af gymnasierne

Hos Danske Gymnasier mente man, at Macom uden samtykke havde udleveret gymnasiernes data til en tredjepart, en studerende, i forbindelse med tilblivelsen af algoritmen.

I dag mener Stephen Alstrup, gymnasierne droppede systemet efter det, DIKU-professoren omtaler som en »Version2-hetz«.

En pointe som det har været vigtigt for Stephen Alstrup at få med i denne artikel om Ghostwriter.

»Jeg savner, at dem som kritiserer nye teknologiske tiltag går ud og tager ansvar for de mennesker, som ikke bliver hjulpet af de systemer, de får taget ned.«

»Afskaffelsen af Dropout var en sejr for Version2, og jeg mangler, at sejrherren går ud og siger 'jeg tager ansvaret for alle de her unge mennesker der dropper ud af gymnasiet og har lidt et knæk, de aldrig kommer over, og jeg synes det er helt fint.' - det mangler jeg nogen, som går ud og siger.«

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (35)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Anne-Marie Krogsbøll

Udover de mange gode spørgsmålstegn artiklen stiller ved projektets etik, så er der en ting, der undrer mig: Det fremgår, at firmaet Macon har udleveret træningssættet. Her taber jeg både næse og mund. Er det Macon, der ejer elevernes opgaver, fordi det er Macon, der står for Lectio? Har det offentlige virkeligt underskrevet en kontrakt med Macon, som giver Macon ejerskab over elevernes eksamensopgaver? Eller er det ikke sådan, det skal forstås?

Jeg ved, at det irriterer nogen grænseløst, at jeg siger det - også nogen, som måske ellers ville være enige. Men altså: Hvis man er begyndt at lade elevers/borgeres private data indgå i handler med private firmaer, så burde der for mig at se kun kunne være én konklusion: Forbrydere!

Og hvis det skulle vise sig - mod forventning - at være fuldt lovligt, så er der i mine øjne bare endnu flere forbrydere højee oppe i systemet, uanset om der skulle vise sig ikke at være begået lovbrud.

Har jeg misforstået den i øvrigt gode artikels oplysninger, eller lader man borgernes data indgå i sådanne handler?

Peter Hansen
Anne-Marie Krogsbøll

Tak for svar, Peter Hansen.

Jeg har beklageligvis stavet Macon, i stedet for Macom.

Fra artiklen:
"Ghostwriters siamesiske netværk er trænet på 130.000 opgaver fra 10.000 forskellige gymnasieelever. Træningssættet er stillet til rådighed af virksomheden Macom, som leverer platformen Lectio til de danske gymnasier."

Bjarne Nielsen

Jeg er kun lige nået til at skimme artiklen, men faldt over denne formulering, som artiklen tilskriver Stephen Alstrup:

»Jeg savner, at dem som kritiserer nye teknologiske tiltag går ud og tager ansvar for de mennesker, som ikke bliver hjulpet af de systemer, de får taget ned.«

Det er den rene og skære "Gladsaxe" argumentation. Lad mig citere fra en tidligere artikel om "Gladsaxe-modellen":

Hun spurgte retorisk, hvem der tager ansvaret for et barn, der ikke bliver opsporet, selv om det er muligt i dag - et synspunkt, som Gladsaxes kommunaldirektør og andre også fremsatte på Dansk It's konference om offentlig it i sidste måned.

Det er denne artikel, som tilskriver ordene til Borgmester Trine Græse (Soc.).

Det lyder på mig som om, at man er ude i noget med at målet helliger midlerne, og at man er villig til at lade andre betale den nødvendige pris. Og at disse andre - med et venlig nik til Timm og Gordons "Håndværkerne" - sgu' bliver glade for det i længden.

Det er som da Claus Hjorth Frederiksen allerede inden sniffer-boks-loven blev fremlagt, fandt det nødvendigt at præ-sværte alle der måtte have spørgsmål som sølvpapirshatte og konspirationsteorikere (jeg husker ikke de præcise ord, men det var noget i den retning).

Når man gør det, så er det en ren tilståelsessag, for så ved man, at man har en dårlig sag.

Peter Hansen

Fra artiklen:
"Ghostwriters siamesiske netværk er trænet på 130.000 opgaver fra 10.000 forskellige gymnasieelever. Træningssættet er stillet til rådighed af virksomheden Macom, som leverer platformen Lectio til de danske gymnasier."

Det gik vist lidt hurtigt med at læse artiklen - det beklager jeg, jeg troede du henviste til den sidste del af artiklen. Men hvorfra kommer din mistanke om, at man giver Macom ejerskab over data via kontrakter?

Michael Larsen

En ting jeg ikke synes fremgår klart af artiklen; hvis man bliver udpeget som snyder, er det så fordi systemet påstår man har snydt eller har systemet faktisk fundet passager der er placeret ? Unge opgaveskrivere er i en alder hvor meget ændrer sig hurtigt. Kan man afvise at en pludselig inspiration ændrer skrivestilen ? Derfor er det vigtigt at systemet påpeger reelt plagiat og ikke bare en anden skrivestil.

Anne-Marie Krogsbøll

Tak for svar, Peter Hansen.

Men hvorfra kommer din mistanke om, at man giver Macom ejerskab over data via kontrakter?


Ja, det er jo her, det er muligt, jeg læser det citerede forkert - men når man skriver, at det er Macom, der stiller træningssættet, der består af elevernes opgaver, til rådighed, så lyder det for mig til, at det er Macom, der ejer disse besvarelser. Ellers ville det vel være ministeriet eller en eller anden styrelse, der stillede det til rådighed. Men jeg håber da, at det er mig, der læser dette forkert.

Kan vi få journalisten på banen med en uddybning?

Povl H. Pedersen

Hvis systemet med en hvis sandsynlighed kan udpege opgaver der er købte, så er det vel fint.
Så skal den der vurderer resultatet så bare være klar over dette, og at det er langt fra et sikkert resultat. Men så må mennesket ind og vurdere.

For der kan være en del forskel i opgaver skrevet under tidspres, og ophaver leveret løbende. Både omhyggelighed med stavekontrol, men også med tegnsætning og ordbrug.

Hvis der er flere gentagne stavefejl i forskel, og evt en helt anden tegnsætning og ordbrug, så er det gode indicier, og absolut et grundlag til at tage en samtale med den studerende. Det kunne være den en bruger jeg og den anden "man". Det kan være den købte opgave er i nutid, og gamle i datid. Der akn være så mange åbenlyse ting der gør det.

Og manden der retter opgaven sidder ikke og sammenligner sprogbrug, medmindre der er trukket nogle ud til kontrol.

Anne-Marie Krogsbøll

kan vel så også afsløre forskere, der snyder?


Ja - måske kan det f.eks. også afsløre ghostwriters, hvor f.eks. medier ukritisk trykker lovprisende artikler om medicinske produkter, hvor forfatteren påstås at være en fagmand/læge, men hvor det i virkeligheden er medicinalfirmaers pressefolk, der har skrevet indholdet?

Troels Henriksen

Plagiat er

eller kan de tkun afsløre elever?
Hvis ja hvorfor den forskel?

Hvis du mener spørgsmålet alvorligt, så er her tre årsager til at denne teknik ikke er så anvendelig til at opdage plagiat i forskning:

  1. Plagiat er ikke et specielt aktuelt problem indenfor forskningsmiljøer. Det sker nu og da, men det er sjældent på andet end meget lavt niveau, og har derfor ingen rigtig betydning. Man ville aldrig kunne udgive i et betydningsfuldt tidsskrift med plagieret forskning, da det ville blive fanget i peer review - hele pointen med forskning er jo at den skal være original, hvilket ikke er tilfældet med samlebåndsproducerede gymnasieopgaver.
  2. Et langt større problem er forsknings-svindel. Det har man som anløben forsker meget større incitament for at udføre. Den i artiklen beskrevne teknik har ingen mulighed for at opdage svindel.
  3. I modsætning til gymnasieopgaver, der ofte er individuelle, så er forskningsartikler typisk skrevet af grupper, der endda kan være pænt store. Dette gør det svært at sammenligne den nye artikel med et korpus af tidligere udgivelser. Hvordan skal man se om artiklen er "for anderledes" hvis den er skrevet af en konstellation hvis nøjagtige sammensætning er ny?
Jesper Frimann

Ja, det er jo her, det er muligt, jeg læser det citerede forkert - men når man skriver, at det er Macom, der stiller træningssættet, der består af elevernes opgaver, til rådighed, så lyder det for mig til, at det er Macom, der ejer disse besvarelser. Ellers ville det vel være ministeriet eller en eller anden styrelse, der stillede det til rådighed. Men jeg håber da, at det er mig, der læser dette forkert.

Jup, du sætter fingeren på et af de ømme steder. Nemlig hvordan kan man få lov til at træne en neuralt netværk med gymnasie elevers Data (opgaver) ?

Macom må vel kun være databehander, så der må være en dataejer, og det må jo så være regionerne eller undervisninsministeriet ...
Og for at lave denne databehandling, skal der jo være en lovhjemmel, og så vidt jeg kan læse mig frem til, er der sku ikke nogen hjemmel i loven

https://www.retsinformation.dk/forms/r0710.aspx?id=179722

der gør at opgavebesvarelserne ikke bare er persondata, som følger normal GDPR. Men man spiller jo nok bare 'videnskabelig formål' kortet som man plejer. Der er så lige det med, at det jo ikke er videnskablige formål, og at data ikke er annonymiserede etc. etc.

Det kan godt være, at der er folk der ikke kan lide loven (GDPR), men det betyder jo ikke at man ikke skal følge den.

// Jesper

Stephen Alstrup

A) Der er i DK selvbestaltet klubber om ”dataetik” med egne hjemmesider m.m. Det er i udgangspunktet dejligt med et sådan engagement, og de har også være aktive vedr. nyheden om ghostwriter andre steder på nettet. Og vil måske ligeledes poppe op i kommentatorsporet her på version2. Jeg oplever desværre disse klubber gør følgende:
- De lever professionelt som f.eks. advokater af at rådgive om GDPR m.m.
- Hvis de opdager historier på nettet hvor der ikke er købt deres rådgivning tagger/summer de sammen og insinuere alt muligt ulovligt, tilbyder man kan købe deres rådgivning, kræver at man møder på deres kontor med dokumentation, data m.m.

Jeg vil undlade at fortælle hvilke andre brancher denne form for ”reklame” minder mig om, men jeg gør opmærksom på det er myndighederne og ikke selvudnævnte klubber, man skal sende dokumentation m.m. til.

b) Plagiat og ghostwriter. Plagiatkontrol bruges allerede på landets skoler og gymnasier. Her ser man om en elevs opgave minder for meget om en tidligere afleveret opgave af en anden elev. For ghostwriter ser man på om elevens opgave minder for lidt om de opgaver eleven selv har afleveret. For plagiatkontrollen popper der en advarsel op til læren, med de indicier programmet har, og læren kan på denne baggrund vælge at tage en dialog med eleven. Hvis ghostwriter sættes i produktion, tænker jeg det skal fungere på samme måde. Begge dele er jo en del af det samme: Et værktøj til at hjælpe læren med at håndtere forsøg på snyd.

c) Alle IT-systemer til mennesker jeg kan kender til videreudvikles bl.a. på baggrund af de data man har fra brugen af systemet. Hvis dette ikke var tilfældet, ville de fleste hurtigt være ubrugelige. Det der ikke er ok er at bruge data til formål der falder uden for rammen af det tiltænkte, men ikke at bruge data overhovedet giver heller ikke mening.

d) Teknologien til plagiat/ghostwriter-kontrol kan også bruges til at følge progressionen er ok – noget som vi også har set på. Endvidere har de samme teknikker vist gode til at fange fake news.

e) I artiklen står der noget om slettede twets: Jeg slettede fordi ”snakken” spindene derudaf med mere og mere dårlig tone hvilket jeg ikke ønsker at være en del af.

f) Der står ene del om procentsatser i artiklen. Det fornuftige efter min mening er: tun programmet således at man er meget sikker når alarmen går at den er rigtig. Det er så på bekostning at en del snyder ikke fanges. Men man har bevaret den afskrækkende effekt hvis man bare snupper en lille del.

f) Dette indlæg er min sidste og eneste kommentar til denne artikel. Uheldigvis oplever jeg at i disse debatforummer at tonen stikker af på den kedelige måde. Og det ønsker jeg ikke at være en del af. Men eller ok tonen indtil nu - fedt!

g) Helt generelt: Man bruger data og algoritmer i dag hele tiden og har gjort det i mange år – hvis man ikke gjorde ville samfundet bryde samfundet. Men på trods af det, er der mange der stiller det op som noget nyt. Det er rigtig godt vi begynder at være skeptiske! Men rigtig meget af debatten føres fra ”nej” siden som om vi kan fravælge data og algoritmer – som om det er noget nyt. Jeg tror der er meget uenighed der bunder i manglende forståelse af hvad algoritmer og data er – og folk er blevet skræmte af diverse hollywood som terminato med skynet, som intet har med virkeligheden at gøre.

h) Jeg er som udgangspunkt mod indsamling af mere data, mere overvågning m.m. men jeg er samtidig generelt for at lægen har de bedste statistiske metoder til at vurdere symptomer osv.

i) Jeg oplever desværre at mange der fravælger ting tager "æren" for fravalget, men slet ikke vil forholde sig til konsekvenserne af dette. Som om målet hellige midler - at fravalget i sig selv har alt overskyggende værdi. I alle situationer i ens liv vælges der til og fra, og ved de fleste ting er der plusser og minusser, og man er nød til at forholde sig til helheden. Så igen: jeg savner en balanceret data/algoritme-debat hvor man ikke bare stiller sig op og siger "nej".

Forsat god dag og jeg håber i holder den gode tone og øjet på bolden!

Anne-Marie Krogsbøll

Tak for uddybning/reaktion, Stephen Alstrup. Desværre har du ikke svaret på det med adgangen til elevernes opgaver- stillet til rådighed af Macom. Hvordan er juraen/aftalerne omkring denne stillen til rådighed? Hvem ejer disse opgavebesvarelser? Hvilke aftaler er der truffet omkring dette samarbejde? Har du/I søgt tilladelse til denne anvendelse? Foreligger der NDA´s i samarbejdet?

Siden du nu har taget dig tid til at skrive en kommentar, havde det været nærliggende, hvis du havde taget dette med, så vi med det samme kunne have fået evt. urimelige mistanker og teorier lagt døde.

Ganske vist siger du, at du ikke vil svare mere - men her har du altså chancen for selv at bidrage til at minimere paranoiaen omkring disse projekter og dataudnyttelser. Grib den chance.

Mads Ravn

Jeg er helt enig og jeg gjorde mig samme tanke. Hvis der er nogen der sidder og bruger mine gymnasie-opgaver til enten at træne deres robotter med eller sælger mine opgaver, så vil jeg altså have penge for det. Jeg har skrevet det.

Anne-Marie Krogsbøll

Tak for svar, Mads Ravn.

Hvis der er nogen der sidder og bruger mine gymnasie-opgaver til enten at træne deres robotter med eller sælger mine opgaver, så vil jeg altså have penge for det. Jeg har skrevet det.


En ting er pengene - det er slemt nok, hvis overvågningskapitalister i det skjulte profiterer på disse data. Men en anden ting er, at elevers besvarelser - lidt afhængigt af område og emne - kan være meget personlige, for ikke at sige private. Stilemner kan være ret "nærgående", og ikke alle elever er sikkert lige gode til at "spille spillet" med at skrive personlige besvarelser, uden at disse bliver alt for private, og måske ligefrem selvudleverende. Så disse data bør aldrig blive privatkapitalistisk ejendom. Hvis det skulle være tilfældet (jeg har stadig lidt svært ved at tro det, og afventer afklaring fra journalisten), så er jeg rystet. Jeg håber, at det bare er formuleret lidt uklart i artiklen.... Men jeg må indrømme, at jeg synes, at Stephen Alstrups kommentar er tilstrækkelig ulden (og fuld af undskyldninger) omkring anvendelsen af disse data til, at jeg er blevet yderligere bekymret.

Så jeg håber, at der kommer svar fra journalist eller Alstrup. ...

Jesper Frimann

g) Helt generelt: Man bruger data og algoritmer i dag hele tiden og har gjort det i mange år – hvis man ikke gjorde ville samfundet bryde samfundet. Men på trods af det, er der mange der stiller det op som noget nyt. Det er rigtig godt vi begynder at være skeptiske! Men rigtig meget af debatten føres fra ”nej” siden som om vi kan fravælge data og algoritmer – som om det er noget nyt.

Det kan vi til dels også. Artikel 22 i persondataforordningen. Du nævner det selv Stephen, nemlig at 'systemet' kun flager potentielle 'syndere'. Og at det så er en lærer selv, der tager afgørelsen. Og det er jo fint nok. Der er grænser, og problemet er lidt at diskussionen om hvor de grænser skal/bør gå, er en snak vi skulle have haft/startet på i samfundet for mange år siden. Det er en snak vi skal have, men det er så absolut ikke optimalt, at vi først sådan har den for alvor nu.

Jeg tror der er meget uenighed der bunder i manglende forståelse af hvad algoritmer og data er – og folk er blevet skræmte af diverse hollywood som terminato med skynet, som intet har med virkeligheden at gøre.

Det er jeg så absolut 112% uenig i. Langt Langt størstedelen af de folk 'der siger fra' er folk der arbejder med IT. Det er IT-arkitekter, DBA'ere, udviklere, IT sikkerheds folk m.fl. Og grunden til, at mange af os er ... 'skarpe' og nogen gang for skarpe, er fordi vi i dagligdagen ser/har set, at 'man' bare ikke tager datasikkerhed alvorligt. Vi ser at midlet helligere målet. (Økonomi over rettigheder), Vi ser en justitsminister/ Justitsministerie, der med næb og klør kæmper for at fastholde ulovlig logning. Vi ser offentlige entiteter, der må trække i land og ændre/skrotte systemer metoder, fordi de mangler lovhjemmel. etc. etc. Vi ser beslutningstagere, der ikke vil forstå/følge loven fordi det nemmere at lade være.
Det står skidt til... rigtig skidt..

h) Jeg er som udgangspunkt mod indsamling af mere data, mere overvågning m.m. men jeg er samtidig generelt for at lægen har de bedste statistiske metoder til at vurdere symptomer osv.

i) Jeg oplever desværre at mange der fravælger ting tager "æren" for fravalget, men slet ikke vil forholde sig til konsekvenserne af dette. Som om målet hellige midler - at fravalget i sig selv har alt overskyggende værdi. I alle situationer i ens liv vælges der til og fra, og ved de fleste ting er der plusser og minusser, og man er nød til at forholde sig til helheden. Så igen: jeg savner en balanceret data/algoritme-debat hvor man ikke bare stiller sig op og siger "nej".

Jeg er sådan set enig i værdien og det potentielle gode, som vores store mængder af især offentlige Data kan bringe os. Men det kræver at tilliden genoprettes. Og det gør den kun ved, at gøre tingene 'by the book'.
At man ikke i en kommune sidder og samkører tandlæge data, sygedage i skolen, antallet af sager, arbejds situation etc. etc. og får en stribe af 'false positives' ud fra data som egentlige er indsamlet med et andet formål.

Jeg har sku prøvet at have kommunale sagsbehandlere stå og stirre ind af vinduerne fordi jeg havde sat et kryds forkert i en af deres elendige selvbetjeningsløsninger. Så de troede jeg boede til leje hos min kone, og derfor nok var en social bedrager, for jeg havde jo ikke tjent penge året før i kommunen. At jeg så ejede halvdelen af egendommen, at vi ingen 'enlig' ydelser modtog, og at jeg ikke havde tjent penge i kommunen året før, fordi vi lige var flyttet til.. var så ja... Men 'systemet' havde jo spyttet mit navn ud, som den venlige dame sagde da jeg ringende til kommunen, og forhørte mig om hvad der forgik. Og hun kunne jo sagtens se idiotien i det, men der vil altid ligge en sag om mistanke om socialt bedrageri på mig, hvor man først finder ud af det var en fejl.. ved at åbne sagen og gennemgå den.

Så for at vi skal kunne opretholde det historiske høje tillidsforhold til 'det offentlige' når det kommer til vores data. Så kræver det altså at man overholder loven. At man behandler data til borgernes fordel, at det ikke bruges som en 'kølle' til at slå folk i hovedet med.
Og det gør man ikke altid, og det er det faktum der gør, at folk slår hælene i.
Man bevarer kun tillid ved at respektere denne tillid og agere derefter.

// Jesper

John Q. Christensen

Lectio, som er produceret af Macom, har sin egen plagiatkontrol og her kan man som lærer sammenligne elevbesvarelser, som egne elever har afleveret, med besvarelser fra alle skoler, som benytter Lectio. Hvis der er sammenfald, har man efterfølgende adgang til de relevate opgavebesvarelser fra andre skoler for visuelt tjek af sammenfaldene.

Jeg har altid opfattet elevbesvarelser som elevens ejendom og at de har givet mig adgang, for at jeg kan kommentere deres besvarelse, og jeg har derfor undret mig over, at lærere fra andre skoler har haft adgang. Selv om jeg har opfordret mine elever til at spørge ledelsen om dette forhold, er intet sket.

At Lectio nu giver endnu flere adgang er blot endnu et skridt i Lectios lemfældige behandling af data. De har ellers strammet op, hvad angår anannym adgang, men tilsyneladende ikke for personalets adgang.

Et eksempel:
Afleveret dokument
<elevnavn>
26/04-2019
...
Dvs den oplevede muskelbelastning øges med 99.23%, når den faktiske muskelbelastning øges med 50%
...

Andet dokument
Ikast-Brande Gymnasium

16/05-2018

<elevnavn> Matematik-aflevering 14 d. 16/5-2018 <klasse>
...
Den oplevede muskelbelastning øges altså med 99,23% når den faktiske muskelbelastning øges med 50%
...

Jeg har fjernet identifikation af eleverne og kan i øvrigt sige, at plagiatkontrol i matematik ikke fungerer, da mange af eleverne svar er standardsætninger. Jeg får de fulde besvarelser at se, men har i ovenstående kun indsat den linje, hvor der var fundet sammenfald.

Anne-Marie Krogsbøll

Jeg har altid opfattet elevbesvarelser som elevens ejendom og at de har givet mig adgang, for at jeg kan kommentere deres besvarelse, og jeg har derfor undret mig over, at lærere fra andre skoler har haft adgang. Selv om jeg har opfordret mine elever til at spørge ledelsen om dette forhold, er intet sket.


Interessante og bekymrende oplysninger, John Q. Christensen. Det lyder meget betændt. Behovet for et dementi fra Altsrups side mht. Macoms videregivelse af besvarelser til denne algoritme trænger sig mere og mere på.

Jeg ville jo egentlig have troet, at elevers eks. stilebesvarelser var copyright-beskyttede? Men det er måske et helt andet problem?

Johan Johansen

Da jeg gik i gymnasiet var det da ikke ukendt, at når man skrev en større skriftlig opgave, at hvis man havde en onkel, der havde en relevant baggrund fik denne til at læse opgaven i gennem og hjælpe med at "smide" nogle kommaer ud over opgaven. Når man skrev mindre opgaver, så var det lidt mere lemfeldigt med kommarer ! Håber en algoritme kan gennemskue noget sådant. Det har jo aldrig været forbudt at bede andre om hjælp, hvis bare ikke hjælpen var at de skrev ens opgave :)

Henning Wettendorff

Uheldigvis oplever jeg at i disse debatforummer at tonen stikker af på den kedelige måde. Og det ønsker jeg ikke at være en del af. Men eller ok tonen indtil nu - fedt!


Alstrups logaritme har dog lært ham, at tonen med høj sandsynlighed alligevel vil stikke af på den kedelige måde i debatter, der ligner denne.... derfor står han af debatten for en sikkerheds skyld.

Bjarke Haack Jørgensen

På det indholdsmæssige plan ift. artiklen er der bekymrende tendenser, der allerede er blevet pointeret flere gange i kommentarsporet, og i et større perspektiv vidner om en udvikling i den digitale kultur der de senere år har fået større opmærksomhed, men desværre ikke nævneværdige konsekvenser ift. praksisser i det offentlige og private.

Jeg vil dog gerne udtrykke min absolutte forvirring ift. kommunikationen med de involverede parter.

For det første er det ekstremt nedsættende at omtale mennesker der, kærer om privatlivets fred og udtrykker deres bekymring for ovenstående udvikling i kulturen, som værende medlemmer af "klubber" der f.eks. er advokater der bare skal tjene penge på GDPR-rådgivning(??? - (p.s. jeg er ikke advokat - eller vent, måske havde jeg bare glemt at jeg var det)). Den anskuelse alene kunne afføde en lang debat om fordomme.

For det andet at man i det ene åndedrag kritiserer version2, og håber at de vil tage ansvar for dem der dropper ud af gymnasierne, og i andet åndedrag afskærmer sig selv for kritik. Vi kan vel forhåbentligt godt blive enige om at Version2's indflydelse på om gymnasie-elever dropper ud eller ej er grænsende mod det ikke-eksisterende(?). Når man nu opfordrer til at holde øjnene på bolden, vil jeg give denne betragtning giver rødt kort.

Lad os følge logikken: firma X opfinder nyt mirakel-software der kan forudsige sandsynligheden for biluheld når du sætter dig i din bil, som skal implementeres i software i biler fra bilproducenten Y. Y vælger til slut at skrotte idéen, idet de bliver opmærksomme på at firma X har anvendt data, der strider mod databehandleraftalen. Hvem beder firma X om at tage ansvar for de uheld som softwaren kunne have forudsagt (med ca. 90% teoretisk træfsikkerhed)? Selvfølgelig Z, det medie der i første omgang bragte nyheden om det nye system.

For det tredje at kalde "nej-siden" (i øvrigt nok en kende overdrevet sort/hvid betragtning) for skynet paranoider (ikke citat, I know) og at sige at samfundet ville bryde sammen uden data/algoritmer finder jeg sådan set mere dystopisk end en Terminator-film. Den menneskelige civilisation, "udviklingen/fremskridtet" (eller andet arbitrært udtryk for menneskets agenda), og jorden står og falder ikke på data. Tro det eller ej, det digitale fænomen er temmelig nyt i menneskets historie.

Men når man lige har stemplet "nej-siden" og i øvrigt er imod overvågning men for lægers mulighed for at stille diagnoser (og det er jo som bekendt et 1-1 forhold), så kan man jo lige kritisere "nej-siden" for at være martyrer uden sans for de fordele og ulemper som den digitale udvikling tilbyder og sige det er for ringe bare at sige "nej" og savne en god debat - for så at sige "det var min eneste kommentar"

...

Sidste pointe er måske lidt off-topic, men finder jeg det mærkværdigt at man sletter tweets fordi snakken går derudad. Det er så mere en diskussion om (selv)censur og moderation der følger en lidt anden tangent.

Jeg ville elske at have en oplyst debat (og gudskelov er det for det meste sådan på Version2), og jeg ved godt at dette ikke handlede så meget om indholdet af artiklen, men jeg synes (og håber at andre er enige) at min belysning afspejler en mindst ligeså farlig tendens i så ekstremt vigtige debatter for vores fremtid, at man afvæbner enhver kritik inden kritikken overhovedet er landet.

Det var min eneste kommentar, hav en god dag.

Jacob Christian Munch-Andersen

Jeg har umiddelbart stor tiltro til at algoritmen gør hvad den er designet til, nemlig at differentiere mellem forskellige skrivestile.

Hvad algoritmen eksplicit ikke gør er at finde snyd. Der er sandsynligvis en statistisk korrelation mellem snyd og forskellige skrivestile, men den er meget langt fra absolut.

Jeg mangler et svar på hvad det er meningen at en skole skal gøre når systemet finder en afvigelse i skrivestil? Det er meningen at et menneske skal overtage opgaven, men hvad skal personen gøre for at gøre informationen anvendelig? Det eneste man umiddelbart kan gøre er selv at kigge opgaverne igennem og konstatere at der er forskelle i skrivestilen, men det bringer ikke en løsning nærmere, for det er stadigvæk ikke til at vide hvad årsagen til forskellene er.

Louise Klint

Har man mon taget lærerne, fx dansklærerne, med på råd,
før man gik i gang med at udvikle denne algoritme?

Jeg kunne godt tænke mig at få en dansklærer på banen her.
En stor mængde spørgsmål melder sig…
Heriblandt:

Har man (også) testet denne algoritme på en tilfældig gymnasieklasse?
Gennem blot 1 år, fx?

(Der står intet nævnt i det linkede).

Jeg tænker, at det må være en relevant øvelse og nødvendig test
før evt. kommercialisering.
I og med at algoritmen – hvis det er hensigten, at den skal finde anvendelse i praksis fremover – skal sammenligne individets/hver enkelt elevs aktuelle aflevering med de forrige:
Altså Peters 3. aflevering op imod de 2 foregående, fx.
Hvordan er resultaterne af dette?

Nu er jeg ikke dansklærer, men indtil vi hører fra en, vover jeg gerne pelsen med et dilemma…

Så vidt jeg forstår, handler danskundervisningen i gymnasiet (ud over at lære eleverne om litteraturhistorien) bl.a. om at lade eleverne stifte bekendtskab med de mange forskellige fremstillingsformer og genrer, der findes inden for fakta og fiktion.
Således eleverne lærer at skelne iblandt dem, hvilke kendetegn, der definerer dem hver især, samt også selv får lejlighed til at prøve kræfter med at skrive dem.

Det gælder de informerende, vurderende og opfordrende genrer inden for
journalistikken, taler, reklamer, mm. Samt alle undergenrerne inden for
epik, lyrik og drama.

Afleveringsopgaverne består, så vidt jeg ved, mestendels i
en tekstanalyse med en fast opbygning og struktur.
(Fx redegørelse – analyse – perspektivering/diskussion).
Og tæller bl.a. argumentationsanalyse, novelle-, lyrik- og filmanalyse, etc.

Men eleverne skal også selv prøve kræfter med fremstillingsformerne.

Dvs. at når klassen når hen til det tidspunkt på året, hvor det er tid til at lære om
essayet (faktagenren, meningsjournalistik), så kunne det meget vel være, at en af afleveringsopgaverne (ud over tekstanalysen) består i selv at skrive et essay.
Det er en god øvelse!

Denne aflevering har således dels en afvigende opbygning og struktur,
ligesom den – for en sjælden gangs skyld – også skal være subjektiv.

Eleven får her lov til selv at fabulere, diskutere, argumentere og polemisere.
Peter må berette og beskrive, og gerne med lange, evt. indskudte sætninger, stream of conciousness, metaforer, kontraster og billedsprog.
(Det absolut modsatte af eks. en redegørelse, som skal være redegørende – saglig, objektiv og neutral fremstilling).

Med andre ord:
Denne aflevering – essayet – skulle meget gerne adskille sig væsentligt fra alle elevens tidligere afleveringer, det er en del af pointen. En del af læringsprocessen.

Hvordan klarer algoritmen dette?

Niklas Hjuler

Der er mange spørgsmål og dilemmaer og derfor glæder det mig at debatten kan tages længe inden GhostWriter er i produktion.

Jeg vil dog vove den vilde påstand at langt de fleste bliver klogere og får en del svar hvis de vælger at læse vores artikel. Selv den bekymrede journalist fra Version2 tror jeg kunne lære et par ting.

  1. Vi har ikke en precision/præcision på 87.5 procent, vi har en accuracy/nøjagtighed på 87.5 procent. Lidt pedantisk, men der er altså en matematisk forskel.

  2. Figur 2 side 5 har vi lavet en graf (til venstre) som viser tradeoff mellem sensitivity og specificity, som er de 2 metrikker som rent faktisk er de væsentlige i forhold Version2 journalistens pointe. Her ses fx at hvis man vælger at fange ca 20% af dem som snyder, ja så er det ca 1% af afleveringer uden snyd som vil blive beskyldt for det. (jeg kan ikke huske de faktiske tal så det er vurderet ud fra aflæsning af grafen). Debatten om det er godt nok byder jeg yderst velkommen. I det hele taget så byder jeg den etiske debat om hvordan vi skal forhole os til tradeoffet mellem at tillade snyd og falske "anklager". (Hvis man nævner blackstone fordeling, må man gerne konkretisere med faktiske tal (hvis man tør))

  3. Journalistens egen pointe er nævnt i artiklen, citat fra vores artikel:"However, one has to keep in mind that, in practice, the data
    set is not 50/50 balanced, which obviously will affect the results."

  4. Et andet citat fra vores artikel som forhåbenligt berolige de bekymrede lidt er: "Furthermore, some texts were
    found to include author revealing information (such as name, address); hence we
    removed all proper pronouns from the texts, as well as the first 200 characters." Vi ønsker på ingen måde at personlig information indgik, og vi så dette som den mest hensigtmæssige fremgangsmåde. Udover det etiske så ser vi det også som teknisk bedst hvis den slags ikke indgik i vurderingen da vi forestiller os at en ghostwriter nemmere kunne tilpasse sig den slags.

Om overstående er nok til ligefrem at kalde det anonymiseret data er også en debat jeg byder mere end velkommen. I det hele taget hvornår er tekst anonymt? Man må meget gerne tage udgangspunkt i EU GDPR recital 26 hvis man har lyst.

Jeg har desværre tralvt med at skrive afhandling, men jeg vil gøre mit bedste for at svare på spørgsmål.

Venlig hilsen Niklas Hjuler PhD studerende

Anne-Marie Krogsbøll

Niklas Hjuler:

Tak for uddybning - meget hjælpsomt.

Det er sikkert mig, der er tungt opfattende, men jeg er stadig ikke sikker på, hvem der ejer de elevbesvarelser, I har fået stillet til rådighed af MaCom, og det virker lidt som om, I går uden om at besvare det? I artiklen, der linkes til fremgår følgende:

"In this paper, we focus on the problem in high schools. We have access to a large data set consisting of 130K Danish essays, written by more than 10K high school students 1).
1)The data set is proprietary and not publicly available."

Og :

"This is done by training deep neural networks on an unprecedented large amount of data supplied by the Danish company MaCom, which covers 90% of Danish high schools."

Hvem ejer disse data? Hvis svaret er enkelt: Ministeriet eller en styrelse eller en anden offentlig relevant institution, så er det meget lettere bare at svare, end at sende os andre på jagt i aktindsigter og den slags.

Så keep up the good work, og svar venligst på dette - ellers bidrager I til, at mange - eller i hvert fald jeg - fortsat har de skeptiske briller på, når vi/jeg hører om denne type forskning. Og det er jo netop det, vi hele tiden hører, at man gerne vil undgå ved at være åbne og transparante og alt det der. Så her er chancen for at være det.

Niklas Hjuler

Hvem der juridisk set er ejer af dataen skal jeg ikke gøre mig klog på.

Etisk ser jeg det som elevens, og en væsentligt ting for mig er at vores arbejde med dette data er så konsekvensfrit for de involverede elever som muligt.

Uanset hvem der juridisk set er ejer, så er det elevens hensyn der står højest for mig.

Det virker måske som om jeg prøver at undgå at svare på dit spørgsmål, men jeg håber det klargør hvor prioriteterne har ligget.

Venlig hilsen

Anne-Marie Krogsbøll

Tak for svar, Niklas Hjuler.

Det afklarer jo ikke rigtigt spørgsmålet - er det ikke rigtigt forstået, at I har skullet bede MaCom om disse data? Eller hvor har I søgt/fået tilladelse til adgang til dem?

Du nævner selv, at du etisk ser besvarelserne som elevens - men som jeg forstår det, er eleverne ikke blevet spurgt, siden det er MaCom, som har stillet dem til rådighed? Er det rigtigt forstået?

For mig lyder det mere og mere som om, det er MaCom, der ejer - eller ser sig selv som ejer - af disse besvarelser. Det er måske ikke rigtigt - men i givet fald er det da interessant og bekymrende - for hvordan er det gået til, at MaCom er kommet til at eje dem?

Det kan du nok ikke svare på - jeg må nok have gang i aktindsigterne for at blive klogere.

Niklas Hjuler

Jeg ved ikke i hvilket omfang MaCom har spurgt om lov.

Al vores dataarbejdning er fysisk sket hos MaCom.

Af det spor vi er på vej ud af så vil jeg påpege at jeg er enig med min vejleder om at der er direkte paralel til plagiat tjek. Jeg ved heller ikke om elever bliver spurgt om lov til om de vil plagiat tjekkes?

I sammenligningen med plagiat tjekket, så vil jeg faktisk mene at ghostwriter er mindre indgribende da vi fjerner alle egennavne og det er utrolig svært at reidentificere eleven igen efter denne pseudoanonymisering (hvis ikke praktisk talt umuligt).

Anne-Marie Krogsbøll

Tak for svar, Niklas Hjuler.

Min bekymring går på, hvis et privat firma har ejerskab/råderet over elevernes besvarelser - det forekommer mig meget mærkeligt. Jeg synes ikke helt det spørgsmål kan dækkes ind under plagiattjek. Normalt skal man vel søge om adgang til personfølsomme oplysninger hos myndighederne? Men jeg vil tænke over, hvad du siger.

Niklas Hjuler

Jeg har indtryk af at du ser lidt binært på det, enten så ejer MaCom dataen også må de gøre alting eller også så ejer eleverne dataen også må de ingenting.

Jeg tror svaret skal findes ret tæt på eleverne, men ikke til ingenting.

Du bruger ordet personfølsomme , hvis jeg tillader mig at (over)tolke på det ord så betyder det to ting.

  1. Person, dvs det kan henføres til en person. Som nævnt er reidentificering yderst besværlig (medmindre man er i besidelse af en væsentlig del af en af afleveringer allerede, så kan man finde den pågældende person). Om det er nok til at kalde anonymt synes jeg er en fin diskussion, men det er hvert fald tæt på. Hvis du har en klar holdning til hvordan EU GDPR recital 26 præcis skal forstås må du meget gerne fortælle den?

  2. Følsom, afleveringer er ikke som udgangspunkt følsomme, men de kan sagtens være det. Fritekst giver både et praktisk og et etisk dilemma i forhold til følsomme oplysninger, fordi man ikke ved i hvilket omfang det er der og hvor de skulle stå. Om løsningen med at udskifte egennavne har været god nok i denne forstand er også fint at diskutere.

Venlig hilsen Niklas

Anne-Marie Krogsbøll

Tak for svar, Niklas Hjuler.

Ja, jeg ser efterhånden (det gjorde jeg ikke for 10 år siden) - tvunget af udviklingen - ret binært på privatlivsspørgsmål, for forsøg på at nuancere det spørgsmål har utallige gentagne gange vist sig at dække over forsøg på at ophæve selve privatlivsbegrebet. Shoshane Zuboff har netop udgivet en 700 siders bog om netop dette: Hvordan overvågningskapitalismen - som MaCom for mig at se er en del af - netop bid for bid forsøger at tilvænne befolkningen til at overlade overvågningskapitalisterne ejerskabet over den enkeltes privatliv. Man har skruppelløst udnyttet, at ingen lovgivning har været forberedt på denne teknologiske udvikling, og derfor er fuld af huller til beskyttelse af privatlivsretten, og man har fået "bestukket"/forført/forvirret beslutningstagere og politikere til ikke at gribe ind i tide - og nu står verdens befolkninger med hatten i hånden ift. overhovedet at have ret til et privatliv - ganske som i dette tilfælde eleverne. Og Ghostwrtier er jo oven i købet et projket under innovationsfonden - dvs. udviklet med business for øje.

Du er i en svær situation som ph.D-studerende - underlagt din vejleders tolkning af problemet. Det er svært at vide, hvad du egentlig selv mener om det, og det er egentligt ikke rart at skulle stille spørgsmålsgtegn ved dine/jeres brug af disse data. Men også du har pligt til at vide, hvad du gør med andre menneskers privatliv, og jeg synes, at dine og Alstrups svar i betænkelig grad minder om debatindlægget fra Claus Hansen i går i Politiken, hvor Singularity Universitys tænkning - som jeg opfatter som yderst farlig - gennemsyrer tankegangen.
https://politiken.dk/debat/debatindlaeg/art7251783/De-etiske-bekymringer...

At forskning kan begrunde hvad som helst, også grove krænkelser af andres ret til privatliv, er jeg dybt, dybt uenig i - jeg mener, at det er vejen til totalitær, udemokratisk forskerfascisme, og hvad det kan føre med sig, er set før i verdenshistorien

Men tak for, at du har givet dig tid til debatten - det er er sjældent, at dem med magt over andres privatliv overhovedet gider tage deres ofres bekymringer alvorligt. Så jeg håber, at det er udtryk for, at du bare ikke har tænkt problemet helt igennem endnu, og at du kan nå frem til en mere forsigtig holdning til det, jeg opfatter disse sager som, nemlig direkte overgreb på andre mennesker: Forsker-fascisme.

Log ind eller Opret konto for at kommentere