Big Data-værktøj rykker ind i gymnasierne og fortæller hvem der dropper ud

Fredag får gymnasierne et nyt værktøj, der fremover advarer dem, hver gang en elev vil droppe ud. Baseret på data fra mere end 70.000 elever rammer det rigtigt ni ud af ti gange og har et stort økonomisk potentiale for gymnasierne, der lever af taxameterpenge.

Fra i morgen kan lærere og studievejledere med et enkelt klik forudse, hvilke elever der vil droppe ud af gymnasiet inden for de kommende tre måneder - med 93 procents træfsikkerhed. Sammen med softwarefirmaet, Macom, har en datalogistuderende fra Københavns Universitet med sit kandidatspeciale skabt et værktøj, der bliver en integreret del af skolernes administrationssystem, Lectio. Værktøjet er baseret på data fra tusindvis af gymnasieelever. Ifølge undervisningsministeriets statistikker har frafaldsprocenten for de gymnasiale uddannelser ligget stabilt på omkring 20-22% mellem 2003 og 2007.

“Jeg læste en undersøgelse, som viser, at hvis man kunne halvere frafaldsprocenten hos 20-årige amerikanske studerende, så kunne den amerikanske regering spare 45 milliarder dollar årligt”, siger Nicolae-Bogdan Șara om motivationen til værktøjet.

Værktøjet er et advarselssystem, der med stor præcision fortæller læreren, hvilke elever, der er i fare for at droppe ud.

Den nu tidligere datalogistuderende, Nicolae-Bogdan Sara, har brugt ni måneder på at indsamle millioner af data om 70.000 danske gymnasieelever, der nu ligger til grundlag for det nye værktøj. Dataene kommer fra Lectio, der fungerer som intranet mellem skole, lærere og elever på mere end 90 procent af landets gymnasier.

Læs også: Bredt flertal vedtager udskældt lov om Center for Cybersikkerhed

»Systemet er nærmest en hellig gral af data samlet fra et helt land over ti år. Der er data om flere hundredetusinde gymnasieelever,« siger direktør i Macom, Martin Holbøll til Version2.

Ud fra de mange data har Nicolae Sara identificeret en række faktorer, som spiller ind på elevernes frafald. Hver for sig kan de ikke bruges til noget, men sammen giver de et meget nøjagtig billede af den nærmeste fremtid.

Den vigtigste enkeltstående faktor er klassestørrelse, lige efter kommer elevens fraværsstatistik for den seneste måned, og så følger faktorerne ellers nedad: Skolens størrelse, den gennemsnitlige indkomst i elevens boligområde, lærer-elev-ratio, missede afleveringer, køn, etnicitet og afstand til skole. Alle spiller de ind på elevens chance for at fuldføre uddannelsen.

Dyre dropouts

Ifølge tal fra Undervisningsministeriet dropper omkring en femtedel af danske gymnasieelever ud. Det koster naturligvis samfundet penge, men også for det enkelte gymnasium er det dyrt at have en stor frafaldsprocent.

Taxameterordningen giver 60.000 pr. år pr. elev, der fuldfører. Hvis eleven beslutter sig at stoppe midt i 2.g, koster det altså 120.000 kroner.

Læs også: Microsoft: To mindre batterier i din smartphone er bedre end et stort

»Men hvis skolen får mulighed for at gribe ind, er der flere penge til tiltag, der kan fastholde eleverne - for eksempel mentorordninger, psykologhjælp eller det såkaldte ‘skrivefængsel’, hvor eleverne kan lave afleveringer efter skole,« siger Martin Holbøll.

Værktøjet er det første af sin størrelse i verden. I andre lande er lignende systemer baseret på data fra et par hundrede elever, hvilket selvsagt gør dem langt mindre skudsikre. Nicolae-Bogdan Șaras speciale blev belønnet med karakteren 12.

Også i 2012 implementerede Macom et studenterprojekt i Lectio-systemet i form af et værktøj, der screener skriftlige opgaver for plagiering.

Fakta

  • Værktøjet til forudsigelse af dropouts er baseret på Machine Learning - at programmere en computer eller et system til at lære ud fra data.
  • Lectio er Danmarks mest besøgte site på trods af en snæver målgruppe. I gennemsnit logger hver gymnasieelev på sitet ti gange om dagen og besøger i samme ombæring ti forskellige sider.
  • Lectio er et cloudbaseret system, der i princippet udkommer i en ny version hver dag. Det har især den fordel, at det er lettere for udviklerne at ændre algoritmerne i fx. dropout-værktøjet, når brugerne kommer med feedback. »Vi er altid i beta«, siger Martin Holbøll.
  • Nicolae-Bogdan Sara fik karakteren 12 for sit speciale.

Deltag i Version2s gratis formiddagsmøde tirsdag d. 3. juni om Insight Live-arrangement om Business Analytics/Big Data

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Kommentarer (24)

Michael Kjems

Finder det interessant at klassestørrelse (som vel er i familie med lærer/elev-ratio?) betyder meget.
Måske var det et argument for at justere hvor store klasser må være?

Martin Bøgelund

Den vigtigste enkeltstående faktor er klassestørrelse, lige efter kommer elevens fraværsstatistik for den seneste måned, og så følger faktorerne ellers nedad: Skolens størrelse, den gennemsnitlige indkomst i elevens boligområde, lærer-elev-ratio, missede afleveringer, køn, etnicitet og afstand til skole. Alle spiller de ind på elevens chance for at fuldføre uddannelsen.

70.000 rækker og 9 kolonner = Big data?
Det kan man jo have i et regneark.

Jakob Sørensen

Uden at skulle gøre mig til ekspert på området, så kunne det sagtens tænkes at der er flere features der kunne være relevante. Kombineret med endnu flere data, samt optimering af algorithmen, er det vel ikke urealistisk at sigte efter 95% accuracy?

Spørgsmålet er så om man kan bruge det til noget? I.e. kan man forhindre at folk dropper ud, når man ved de vil gøre det.

Stephen Alstrup

Jeg var co-vejleder på projektet og har et par kommentar:

Der blev, eksempelvis, som overskriften indikere brugt "Big Data-værktøj" dvs. diverse machine learning værktøjer.

Vi forventer 95% accuracy i næste version. Jeg håber man kan bruge værktøjet på individ niveau, men som minimum giver det indikationer af hvor det giver mening at forbedre.

Mvh.,
Stephen

Kristian Thy

"Den vigtigste enkeltstående faktor er klassestørrelse"

No shit, Sherlock.

De fleste gymnasieklasser starter med det samme antal elever (i Danmark er det vel omkring 40 efterhånden). Vi ved af erfaring at nogle af dem dropper ud, og mange af dem rimelig hurtigt.

Når vi når 3.G er klassestørrelsen måske nede på 30 i gennemsnit. Der er færre der dropper ud af 3.G end af 1.G.

Causation, correlation etc.

Jakob Sørensen

Causation, correlation etc.

Omend jeg er enig i, at det er vigtigt at kende forskel på kausalitet vs. korelation, så er det (oftest) ikke relevant for machine learning. Machine learning bruger en række parametre (features) til at komme med en forudsigelse (klassifikation eller regression). Om der er tale om kausalitet eller korelation gør ikke noget, så længe der er en sammenhæng mellem en feature og forudsigelsen.

Steen S P

Jeg undrer mig også over at man kalder dette "Big Data". Hverken data mængden eller det man har gjort lyder nævneværdigt forskelligt fra det mange almindelige firmaer laver i deres BI afdeling.

Michael Weber

Den vigtigste enkeltstående faktor er klassestørrelse, lige efter kommer elevens fraværsstatistik for den seneste måned, og så følger faktorerne ellers nedad: Skolens størrelse, den gennemsnitlige indkomst i elevens boligområde, lærer-elev-ratio, missede afleveringer, køn, etnicitet og afstand til skole. Alle spiller de ind på elevens chance for at fuldføre uddannelsen.

Det er jo i virkeligheden meget lidt data fra Folkeskolen om folkeskoleeleven, Gymnasiet skal bruge, for at afgøre om folkeskoleeleven skal optages i Gymnasiet. eller?

Sådan cirka fraværsstatistik og missede afleveringer.

Martin Bøgelund

Der blev, eksempelvis, som overskriften indikere brugt "Big Data-værktøj" dvs. diverse machine learning værktøjer.

Kan du uddybe?
Machine learning er mig bekendt ældre end buzz-begrebet "Big data", så hvad der lige skulle gøre machine learning-værktøjer til et specifikt big data område, kan jeg ikke se.

Desuden virker projektet her mere som data mining, der leder efter ukendte sammenhænge, fremfor machine learning der anvender kendte sammenhænge til at undervise maskinen.

Christian Bruun

"Den vigtigste enkeltstående faktor er klassestørrelse"

Nej den vigtigste enkeltstående faktor er det politiske ønske om at x procent skal gennemføre en gymnasiel uddannelse.

Konsekvensen er så mindre pensum, mindre lærertid tid til de stærke elever, osv.

Klaus Mogensen

Enig. Det virker som et alm gammeldags data mining projekt, som kan have været lavet med data fra et excelark og f.eks. MATLAB

Der er ikke noget der tyder på at BigData teknologier (HDFS, Hadoop Map Reduce, Hive, Pig, HBase, Spark eller lignende) har været brugt.

Men indtil man kender det nøjagtige værktøjsvalg kan man naturligvis ikke afvise at det er lavet med BigData teknologier

Jakob Sørensen

Desuden virker projektet her mere som data mining, der leder efter ukendte sammenhænge, fremfor machine learning der anvender kendte sammenhænge til at undervise maskinen.

Det ene udelukker for såvidt ikke det andet. Hvis han har brugt ex. Bayesian klassifikation til udfra et input (de nævnte faktorer) at estimere om en elev dropper ud eller ej, så er det machine learning. At man så ikke nødvendigvis har helt styr på betydningen af samtlige input (features) inden klassifikationen, gør ikke noget.

Jens Axel Søgaard

Fra http://www.diku.dk/begivenhedsmappe/begivenheder-2014/school-drop-out-pr...

Then, several binary classification algorithms were tested on these data: Linear Discriminant Analysis, Random Forests, Support Vector Machines, Classification and Regression Trees, k-Nearest Neighbour and Naïve Bayes. For the model selection, a combination of grid search and cross validation was used, followed by evaluation on test data.

Finn Aarup Nielsen

Desuden virker projektet her mere som data mining, der leder efter ukendte sammenhænge, fremfor machine learning der anvender kendte sammenhænge til at undervise maskinen.

Som jeg ser det er det ikke forskellen på data mining og machine learning. En almindelig naive Bayes classifier kan trænes med supervized learning til at forudsige (i det her tilfælde frafald) og derefter kan man undersøge hvilke features der diskriminerer mest (for eksempel klassestørrelse). I f.eks. Python Statsmodels får man også statistik ud på de enkelte features efter at have kørt den almindelige OLS model.

Finn Aarup Nielsen

I disse massovervågningstider er det interessant at påpege hvor meget data der er tilgængelig for data mineren: "...den gennemsnitlige indkomst i elevens boligområde ... missede afleveringer, køn, etnicitet og afstand til skole." Det kan selvfølgelig være anonymiseret tidligt i processen.

Niels Larsen-Ledet

Har Macom indhentet gymnasiernes tilladelse til at videregive skolens data? Efter al sandsynlighed er der vel foregået en vis form for anonymisering, og der kan udelukkende være benyttet historiske data, men data er stadig den enkelte skoles ejendom, ikke Macoms.

Brian Jakobsen

Nu skal alle indgreb så registreres.
Den næste opgave bliver så at kunne forudsige det bedst mulige indgreb så tidligt i forløbet som muligt.

Big data er ikke bare et spørgsmål om meget data og statistiske modeller. De skal lave systemet så det automatisk optimere på modellerne over tid, som resultat af nyt data. Ellers er der jo ikke ikke meget nyt under solen

Jørgen Halland

Med en træfsikkerhed på tæt ved 100% kan man påvise en sammenhæng mellem antallet af drukneulykker og antallet af solgte is!

Uanset talbehandlingsmetode kræves en dybere forståelse af hvad man har med at gøre for at kunne udlede konklusioner med en vis validitet.
Ren talgymnastik giver sjældent nyttig viden.

Den enkelte elev er jo ikke "født" i 1.g - forud ligger 15-17 år i familieomgivelser, børneinstitutioner og skoler. I følge artiklen er den personlighedsopbyggende del af elevens tilværelse helt fraværende, ligeså vilkår derefter. Der er dog gjort et enkelt forsøg med finde gns. indkomst i gymnasiernes optagelsesområder. Der er dog i hvert fald et problem, da elever på mange gymnasier optages langt uden for optagelsesområderne.

Som flere ovenfor er inde på, kan jeg blive lidt bekymret over dels ejerskabet til oplysningerne og dels om datatilsynet har givet tilladelse til opbevaring og anvendelse af data på denne måde.

Jakob Sørensen

Som flere ovenfor er inde på, kan jeg blive lidt bekymret over dels ejerskabet til oplysningerne og dels om datatilsynet har givet tilladelse til opbevaring og anvendelse af data på denne måde.

Jeg ved ikke hvordan de har lavet projektet, men det kan sagtens laves relativt anonymt. Navnet på eleven skiftes ud med et unikt ID og data skaleres fra 0:1 inden det gives videre. Så er der ingen navne eller absolutte tal, hvilket gør det tæt på 100% anonymt.

Mikael Kristensen

  1. Fortæller systemet noget som lærerne/skolerne ikke allerede ved?

  2. Fortæller systemet det tidligt nok i processen?

  3. "Big Data", det er blevet nævnt med størrelse af data, det er jo relativt, men det er vel ikke det eneste? Præcis den proces hvor man konkludere på enkelt niveau, vil jeg ikke kalde big data, i virksomhederne minder det mere om CRM. At det så skal spille sammen, begrunder ikke at kalde det big data.

Mikael Kristensen

Min pointe er at nogle ting kan klares, måske bedre, uden IT. Hvis lærerne ved det længe før at IT-systemet kan komme med noget brugbart, så må det være en organisatorisk og pædagogisk udfordring for skoler, kommuner og amter.

Log ind eller opret en konto for at skrive kommentarer

Pressemeddelelser

Big Data Lake Summit: Fast and Trusted Insights

If you want to outpace, outsmart and outperform your competition in a digital world, you need trusted data that can be turned into actionable business insights at speed.
24. apr 15:06

Welcome to Free course to learn about the combined power of Alteryx and Qlik!

Affecto invites to a free course, where we want to share our knowledge of this self-service analysis platform together with the power of Qlik.
20. apr 2017

Robotics Process Automation (RPA) changes the way organizations think about and perform work at a reduced cost, higher efficiency and greater productivity

Join us for this exiting seminar, which Affecto hosts with our business partner SmartRPA May 3rd, 2017 at 13.00 in Copenhagen.
30. mar 2017