It-firma afviser at have udleveret data under udvikling af system til varsel af elevfrafald

Virksomheden bag frafaldsalgoritme afviser at have udleveret data til tredjemand i forbindelse med udviklingsarbejdet. Det er ellers en del af begrundelsen for, hvorfor algoritmen ikke er velkommen på gymnasierne.

Et it-system, der med 93 procents sandsynlighed kan forudsige, om en gymnasieelev er frafaldstruet, er ikke velkomment på gymnasierne. Det har Version2 fortalt her til morgen.

Blandt andet er gymnasierne bekymrede for, at virksomheden bag funktionen, Macom, har udleveret gymnasiernes data til den datalogistuderende, der har udviklet algoritmen.

Det bliver imidlertid blankt afvist af direktør i Macom Martin Holbøll.

Det er en datalogistuderende ved Københavns Universitet, der har udviklet algoritmen i samarbejde med Macom som en del af et kandidatprojekt. Og den studerende har udelukkende haft adgang til et anonymiseret udsnit af de data, Macom ligger inde med i kraft af virksomhedens sky-baserede it-system, Lectio, som ca. 90 procent af gymnasierne anvender.

Og derudover, fortæller Martin Holbøll, har den datalogistuderende kun haft adgang til data ved at møde fysisk op hos Macom. Og derfor kan han heller ikke genkende påstanden om, at Macom skulle have udleveret data til uvedkommende.

»Det var herinde, så det er ikke sådan, vi udleverer noget til nogen. Sådan er det selvfølgelig ikke,« siger Martin Holbøll.

Selve funktionaliteten, der blev rullet ud i Lectio, havde gymnasierne som sådan ikke bedt om. Men Macom valgte altså at implementere funktionen alligevel i juni 2014. Om det siger Martin Holbøll:

»Det var noget, der var oppe i den politiske debat, og derfor tog vi det for givet, at det var noget, gymnasierne gerne ville have,« siger han tilføjer, at selve funktionaliteten ingenting kostede at udvikle - og altså heller ikke for kunderne, det vil sige gymnasierne - da muligheden var der for at lave det i forbindelse med specialeprojektet på Københavns Universitet.

Martin Holbøll fortæller, at han da også blev overrasket over, at funktionen alligevel ikke var ønsket.

»Hvis vi havde vidst, det var noget, man ikke ville have, så havde vi selvfølgelig ikke lavet det. Gymnasierne er vores kunder, og det sidste, vi er interesserede i, er at genere vores kunder.«

Universiteterne laver generelt algoritmerne

Derudover har Macom et løbende samarbejde med studerende på landets universiteter. Og i udgangspunktet er der ikke nogen forskel på det samarbejde og så samarbejdet i forhold til tilblivelsen af den konkrete machine learning-algoritme, som altså har vakt bekymring på landets gymnasier.

Heller ikke hvad adgangen i forhold til de data, Macom ligger inde med, angår.

»Vi kan jo ikke altid forudsige, om der kommer en studerende, eller om der ikke gør. Men de arbejder jo under samme vilkår, som vi gør herinde, i forhold til at kigge på data. Vi ved jo ikke, om der kommer noget ud af det eller ej,« siger Martin Holbøll.

Der er forskel på, hvilke og hvor mange data den enkelte studerende har behov for adgang til. Ligesom den studerende ikke har samme adgang som de fastansatte hos Macom. Men det sker altså ifølge Martin Holbøll løbende, at Macom stiller datamateriale til rådighed for universitetsstuderende, forudsat at de sidder fysisk og arbejder med dem hos virksomheden.

»Vi har jo ikke noget at skjule. Hvis vi mente, det var forkert, så ville vi måske ikke stå ved det,« siger Martin Holbøll.

I den forbindelse har han umiddelbart ikke noget bud på, hvorfor projektet med machine learning har vakt bekymring hos de almene gymnasiers forening Danske Gymnasier, mens andre projekter ikke har givet anledning til løftede øjenbryn.

Blandt øvrige projekter, der også er blevet til gennem virksomhedens samarbejde med universiteterne, er eksempelvis en del-funktion i Lectio, der kan afsløre plagiater i forbindelse med opgaveaflevering.

»Lidt populært sagt kan man sige, at det er universiteterne, der har leveret algoritmerne, og så har vi puttet det ind i en sammenhæng og lavet GUI'en (grafisk brugergrænseflade, red.) ovenpå. Så alle de steder, hvor der er en knap, der gør et eller andet automatisk, er der et samarbejde bag,« siger han.

Siden Danske Gymnasier på et møde bad om at få funktionen fjernet igen, har Martin Holbøll ikke hørt yderligere fra organisationen i den forbindelse.

Dengang - tilbage i juni 2014 - lå det ellers i kortene, at funktionens fremtid og lovligheden af den skulle afklares. Og om den eventuelt kunne implementeres på en måde, så det kun ville være et begrænset antal medarbejdere, der havde adgang til den. Martin Holbøll oplyser, at det godt kan lade sig gøre, men han har som sagt ikke hørt yderligere.

Version2 har forsøgt at få en uddybning i forhold til bekymringerne over frafaldsalgoritmen hos Danske Gymnasier samt algoritmens eventuelle fremtid. Her har formand Anne-Birgitte Rasmussen umiddelbart ingen kommentarer.

Opdatering 19. august 11:30
I den oprindelige tekst var Danske Gymnasier præsenteret som danske gymnasiers sammenslutning Danske Gymnasier. Det er ændret til de almene gymnasiers forening Danske Gymnasier, så organisationen ikke bliver forvekslet med Danske Gymnasieelevers Sammenslutning.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Følg forløbet

Kommentarer (9)

Henning Mølsted Journalist

Kære Gustav Brock

Tak for at du skriver. Jeg beklager, at vi fik artiklen ud lidt for hurtigt og med fejl. Den skulle nå at komme med i vores nyhedsbrev. Det er ikke en undskyldning men måske antydningen af en forklaring.

Jeg håber i øvrigt, du synes problematikken med anvendelsen af nye it-systemer på uddannelsesinstitutionerne er interessant.

Med venlig hilsen

Henning Mølsted
redaktør

Jakob Møbjerg Nielsen

Det er vel begrænset hvor anonymiseret data kan være, hvis det skal bruges til machine learning? Køn, fødselsdag, bopæl, karakterer, fravær, og selvølgelig om eleven faldt fra eller ej, er vel alle vigtige parametre, som ikke må afvige særligt meget fra virkeligheden (og der er sikkert flere).

Torben Mogensen Blogger

Du skal ikke have megen viden om forventet kønsfordeling, førend den "anonymisering" er værdiløs.

Det er ikke svært at lave et udtræk af data, hvor der er lige mange af hvert køn, så fordelingen ikke kan bruges til at gætte det faktiske køn. Ligeledes kan bopæl (i form af postnummer) anonymiseres ved at udtrække lige mange fra hvert postnummer og erstatte postnumrene med tilfældige tal.

Når algoritmen så er lavet, kan firmaet "oversætte" den til de korrekte parametre, uden at involvere den studerende.

Men umiddelbart synes jeg, at dette vil være overkill: Hvis blot navnene er fjernet, ser jeg ikke noget problem. Data bliver i praksis kun læst af et program, der bruger dem til at finde mønstre, der adskiller frafaldstruede fra andre. Den studerende har næppe selv læst andet en en beskrivelse af dataformatet. Endvidere har standardkontrakten for virksomhedsprojekter klausuler, der forpligter studerende til at behandle fortroligt data med netop fortrolighed på samme måde som en ansat gør det. En studerende er altså efter min mening ikke mere "farlig" for datasikkerhed end en ansat. Jeg har aldrig hørt om datalæk, der skyldes en studerendes lemfældige eller bevidst lyssky omgang med data, men adskillige, der skyldes fastansattes ditto. Så mistroen mod studerende er efter min mening malplaceret.

Bjarne Nielsen

Det er ikke svært at lave et udtræk af data, hvor der er lige mange af hvert køn, så fordelingen ikke kan bruges til at gætte det faktiske køn. Ligeledes kan bopæl (i form af postnummer) anonymiseres ved at udtrække lige mange fra hvert postnummer og erstatte postnumrene med tilfældige tal.

Er du så sikker på, at det stadigvæk kan bruges til at lære en algoritme om grunde til fravær, når der f.eks. skal være lige mange vestjyder og københavnere?

Og husk så lige på lige på, at det ikke er nok at sikre den generelle kønsfordeling. Jeg citerer lige fra UVM side som karaktergennemsnit:

Eksamensresultatgennemsnittet i 2014 er lidt højere blandt pigerne end blandt drengene med undtagelse af hf og hf-enkeltfag, hvor eksamensresultatgennemsnittet modsat er lidt højere blandt drengene. Størst er forskellen på htx, hvor pigernes eksamensresultatgennemsnit er 0,9 højere end drengenes.

Jeg tror nok, at du vil løbe tør for lapper lang tid før, end jeg løber tør for huller. Svaret til "hvor svært kan det være?" er normalt "tydeligvist sværere end DU tror".

Bjarne Nielsen

En studerende er altså efter min mening ikke mere "farlig" for datasikkerhed end en ansat.

Det har du muligvis ret i. Det ved vi ikke nok om det konkrete setup til at have en mening om.

Men det er også ligegyldigt, for det er slet ikke tilknytningen til databehandlerens organisation, som er det største problem, men derimod at databehandler tilsyneladende har brugt data til andet end hvad den dataansvarlige har givet lov til (og til andet formål end det, som det er indsamlet til).

Så nej, en studerende er nok ikke en større fare end en ansat. Desværre!

Bjarne Nielsen

Det er ikke svært at lave et udtræk af data, hvor der er lige mange af hvert køn, så fordelingen ikke kan bruges til at gætte det faktiske køn.

Jeg fandt en undersøgelse fra 2009 af frafald på gymnasiale uddannelser: Køn er den mest betydende faktor for frafald på HTX (og har varierende betydning for de andre uddannelser). Piger har helt generelt lavere frafald end drenge.

Så hvis man vil skjule hvad 0/1-kodningen af køn svarer til, så skal man med andre ord også skjule frafald ... og så bliver det sørme svært at lave en fornuftig algoritme som forudsiger sandsynligheden for frafald.

Kan vi så blive enige om, at anonymisering er sværere end man umiddelbart skulle tro?

Jakob Møbjerg Nielsen

Endvidere har standardkontrakten for virksomhedsprojekter klausuler, der forpligter studerende til at behandle fortroligt data med netop fortrolighed på samme måde som en ansat gør det.

I mine øjne, er dette den absolut bedste måde at gøre det på. Selvom adgang til data bør være begrænset så meget som muligt, så er det en gang i mellem nødvendigt at få adgang.

Anonymisering af data, vil i bedste fald koste den specialestuderende tid, og i værste fald forringe resultatet. Derudover kommer den studerende vel også meget snart ud i et job med lignende ansvar.

Det irriterede mig bare at Macoms direktør får det til at lyde som en selvfølge, at man let kan anonymisere data.

Log ind eller opret en konto for at skrive kommentarer

Pressemeddelelser

Affecto Denmark reaches highest Microsoft Partner level

Affecto Denmark, a leading provider of data-driven solutions, has reached the highest level in the Microsoft partner ecosystem: Managed Partner.
22. jun 2017

Innovate your business with Affecto's IoT Explorer Kit

Are you unsure if Internet of Things fits your business strategy?
31. maj 2017

Big Data Lake Summit: Fast and Trusted Insights

If you want to outpace, outsmart and outperform your competition in a digital world, you need trusted data that can be turned into actionable business insights at speed.
24. apr 2017