Big Data-værktøj rykker ind i gymnasierne og fortæller hvem der dropper ud

12. juni 2014 kl. 06:2924
Fredag får gymnasierne et nyt værktøj, der fremover advarer dem, hver gang en elev vil droppe ud. Baseret på data fra mere end 70.000 elever rammer det rigtigt ni ud af ti gange og har et stort økonomisk potentiale for gymnasierne, der lever af taxameterpenge.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Fra i morgen kan lærere og studievejledere med et enkelt klik forudse, hvilke elever der vil droppe ud af gymnasiet inden for de kommende tre måneder - med 93 procents træfsikkerhed. Sammen med softwarefirmaet, Macom, har en datalogistuderende fra Københavns Universitet med sit kandidatspeciale skabt et værktøj, der bliver en integreret del af skolernes administrationssystem, Lectio. Værktøjet er baseret på data fra tusindvis af gymnasieelever. Ifølge undervisningsministeriets statistikker har frafaldsprocenten for de gymnasiale uddannelser ligget stabilt på omkring 20-22% mellem 2003 og 2007.

Værktøjet er et advarselssystem, der med stor præcision fortæller læreren, hvilke elever, der er i fare for at droppe ud.

Den nu tidligere datalogistuderende, Nicolae-Bogdan Sara, har brugt ni måneder på at indsamle millioner af data om 70.000 danske gymnasieelever, der nu ligger til grundlag for det nye værktøj. Dataene kommer fra Lectio, der fungerer som intranet mellem skole, lærere og elever på mere end 90 procent af landets gymnasier.

»Systemet er nærmest en hellig gral af data samlet fra et helt land over ti år. Der er data om flere hundredetusinde gymnasieelever,« siger direktør i Macom, Martin Holbøll til Version2.

Artiklen fortsætter efter annoncen

Ud fra de mange data har Nicolae Sara identificeret en række faktorer, som spiller ind på elevernes frafald. Hver for sig kan de ikke bruges til noget, men sammen giver de et meget nøjagtig billede af den nærmeste fremtid.

Den vigtigste enkeltstående faktor er klassestørrelse, lige efter kommer elevens fraværsstatistik for den seneste måned, og så følger faktorerne ellers nedad: Skolens størrelse, den gennemsnitlige indkomst i elevens boligområde, lærer-elev-ratio, missede afleveringer, køn, etnicitet og afstand til skole. Alle spiller de ind på elevens chance for at fuldføre uddannelsen.

Dyre dropouts

Ifølge tal fra Undervisningsministeriet dropper omkring en femtedel af danske gymnasieelever ud. Det koster naturligvis samfundet penge, men også for det enkelte gymnasium er det dyrt at have en stor frafaldsprocent.

Taxameterordningen giver 60.000 pr. år pr. elev, der fuldfører. Hvis eleven beslutter sig at stoppe midt i 2.g, koster det altså 120.000 kroner.

Artiklen fortsætter efter annoncen

»Men hvis skolen får mulighed for at gribe ind, er der flere penge til tiltag, der kan fastholde eleverne - for eksempel mentorordninger, psykologhjælp eller det såkaldte ‘skrivefængsel’, hvor eleverne kan lave afleveringer efter skole,« siger Martin Holbøll.

Værktøjet er det første af sin størrelse i verden. I andre lande er lignende systemer baseret på data fra et par hundrede elever, hvilket selvsagt gør dem langt mindre skudsikre. Nicolae-Bogdan Șaras speciale blev belønnet med karakteren 12.

Også i 2012 implementerede Macom et studenterprojekt i Lectio-systemet i form af et værktøj, der screener skriftlige opgaver for plagiering.

Fakta

  • Værktøjet til forudsigelse af dropouts er baseret på Machine Learning - at programmere en computer eller et system til at lære ud fra data.
  • Lectio er Danmarks mest besøgte site på trods af en snæver målgruppe. I gennemsnit logger hver gymnasieelev på sitet ti gange om dagen og besøger i samme ombæring ti forskellige sider.
  • Lectio er et cloudbaseret system, der i princippet udkommer i en ny version hver dag. Det har især den fordel, at det er lettere for udviklerne at ændre algoritmerne i fx. dropout-værktøjet, når brugerne kommer med feedback. »Vi er altid i beta«, siger Martin Holbøll.
  • Nicolae-Bogdan Sara fik karakteren 12 for sit speciale.

Deltag i Version2s gratis formiddagsmøde tirsdag d. 3. juni om Insight Live-arrangement om Business Analytics/Big Data

24 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
22
17. juni 2014 kl. 19:22
  1. Fortæller systemet noget som lærerne/skolerne ikke allerede ved?

  2. Fortæller systemet det tidligt nok i processen?

  3. "Big Data", det er blevet nævnt med størrelse af data, det er jo relativt, men det er vel ikke det eneste? Præcis den proces hvor man konkludere på enkelt niveau, vil jeg ikke kalde big data, i virksomhederne minder det mere om CRM. At det så skal spille sammen, begrunder ikke at kalde det big data.

24
17. juni 2014 kl. 21:25

Min pointe er at nogle ting kan klares, måske bedre, uden IT. Hvis lærerne ved det længe før at IT-systemet kan komme med noget brugbart, så må det være en organisatorisk og pædagogisk udfordring for skoler, kommuner og amter.

20
13. juni 2014 kl. 02:17

Med en træfsikkerhed på tæt ved 100% kan man påvise en sammenhæng mellem antallet af drukneulykker og antallet af solgte is!

Uanset talbehandlingsmetode kræves en dybere forståelse af hvad man har med at gøre for at kunne udlede konklusioner med en vis validitet. Ren talgymnastik giver sjældent nyttig viden.

Den enkelte elev er jo ikke "født" i 1.g - forud ligger 15-17 år i familieomgivelser, børneinstitutioner og skoler. I følge artiklen er den personlighedsopbyggende del af elevens tilværelse helt fraværende, ligeså vilkår derefter. Der er dog gjort et enkelt forsøg med finde gns. indkomst i gymnasiernes optagelsesområder. Der er dog i hvert fald et problem, da elever på mange gymnasier optages langt uden for optagelsesområderne.

Som flere ovenfor er inde på, kan jeg blive lidt bekymret over dels ejerskabet til oplysningerne og dels om datatilsynet har givet tilladelse til opbevaring og anvendelse af data på denne måde.

21
13. juni 2014 kl. 07:36

Som flere ovenfor er inde på, kan jeg blive lidt bekymret over dels ejerskabet til oplysningerne og dels om datatilsynet har givet tilladelse til opbevaring og anvendelse af data på denne måde.

Jeg ved ikke hvordan de har lavet projektet, men det kan sagtens laves relativt anonymt. Navnet på eleven skiftes ud med et unikt ID og data skaleres fra 0:1 inden det gives videre. Så er der ingen navne eller absolutte tal, hvilket gør det tæt på 100% anonymt.

19
12. juni 2014 kl. 20:46

Nu skal alle indgreb så registreres. Den næste opgave bliver så at kunne forudsige det bedst mulige indgreb så tidligt i forløbet som muligt.

Big data er ikke bare et spørgsmål om meget data og statistiske modeller. De skal lave systemet så det automatisk optimere på modellerne over tid, som resultat af nyt data. Ellers er der jo ikke ikke meget nyt under solen

18
12. juni 2014 kl. 17:30

Har Macom indhentet gymnasiernes tilladelse til at videregive skolens data? Efter al sandsynlighed er der vel foregået en vis form for anonymisering, og der kan udelukkende være benyttet historiske data, men data er stadig den enkelte skoles ejendom, ikke Macoms.

16
12. juni 2014 kl. 16:39

I disse massovervågningstider er det interessant at påpege hvor meget data der er tilgængelig for data mineren: "...den gennemsnitlige indkomst i elevens boligområde ... missede afleveringer, køn, etnicitet og afstand til skole." Det kan selvfølgelig være anonymiseret tidligt i processen.

17
12. juni 2014 kl. 17:03

Det kunne være sjovt at se en liste af variable der bliver undersøgt af systemet.

13
12. juni 2014 kl. 15:12

Fra https://www.diku.dk/begivenhedsmappe/begivenheder-2014/school-drop-out-prediction/

Then, several binary classification algorithms were tested on these data: Linear Discriminant Analysis, Random Forests, Support Vector Machines, Classification and Regression Trees, k-Nearest Neighbour and Naïve Bayes. For the model selection, a combination of grid search and cross validation was used, followed by evaluation on test data.

10
12. juni 2014 kl. 12:15

"Den vigtigste enkeltstående faktor er klassestørrelse"

Nej den vigtigste enkeltstående faktor er det politiske ønske om at x procent skal gennemføre en gymnasiel uddannelse.

Konsekvensen er så mindre pensum, mindre lærertid tid til de stærke elever, osv.

8
12. juni 2014 kl. 12:13

Den vigtigste enkeltstående faktor er klassestørrelse, lige efter kommer elevens fraværsstatistik for den seneste måned, og så følger faktorerne ellers nedad: Skolens størrelse, den gennemsnitlige indkomst i elevens boligområde, lærer-elev-ratio, missede afleveringer, køn, etnicitet og afstand til skole. Alle spiller de ind på elevens chance for at fuldføre uddannelsen.

Det er jo i virkeligheden meget lidt data fra Folkeskolen om folkeskoleeleven, Gymnasiet skal bruge, for at afgøre om folkeskoleeleven skal optages i Gymnasiet. eller?

Sådan cirka fraværsstatistik og missede afleveringer.

5
12. juni 2014 kl. 10:53

"Den vigtigste enkeltstående faktor er klassestørrelse"

No shit, Sherlock.

De fleste gymnasieklasser starter med det samme antal elever (i Danmark er det vel omkring 40 efterhånden). Vi ved af erfaring at nogle af dem dropper ud, og mange af dem rimelig hurtigt.

Når vi når 3.G er klassestørrelsen måske nede på 30 i gennemsnit. Der er færre der dropper ud af 3.G end af 1.G.

Causation, correlation etc.

6
12. juni 2014 kl. 11:43

Causation, correlation etc.

Omend jeg er enig i, at det er vigtigt at kende forskel på kausalitet vs. korelation, så er det (oftest) ikke relevant for machine learning. Machine learning bruger en række parametre (features) til at komme med en forudsigelse (klassifikation eller regression). Om der er tale om kausalitet eller korelation gør ikke noget, så længe der er en sammenhæng mellem en feature og forudsigelsen.

4
12. juni 2014 kl. 10:42

Jeg var co-vejleder på projektet og har et par kommentar:

Der blev, eksempelvis, som overskriften indikere brugt "Big Data-værktøj" dvs. diverse machine learning værktøjer.

Vi forventer 95% accuracy i næste version. Jeg håber man kan bruge værktøjet på individ niveau, men som minimum giver det indikationer af hvor det giver mening at forbedre.

Mvh., Stephen

9
12. juni 2014 kl. 12:14

Der blev, eksempelvis, som overskriften indikere brugt "Big Data-værktøj" dvs. diverse machine learning værktøjer.

Kan du uddybe? Machine learning er mig bekendt ældre end buzz-begrebet "Big data", så hvad der lige skulle gøre machine learning-værktøjer til et specifikt big data område, kan jeg ikke se.

Desuden virker projektet her mere som data mining, der leder efter ukendte sammenhænge, fremfor machine learning der anvender kendte sammenhænge til at undervise maskinen.

15
12. juni 2014 kl. 16:28

Desuden virker projektet her mere som data mining, der leder efter ukendte sammenhænge, fremfor machine learning der anvender kendte sammenhænge til at undervise maskinen.

Som jeg ser det er det ikke forskellen på data mining og machine learning. En almindelig naive Bayes classifier kan trænes med supervized learning til at forudsige (i det her tilfælde frafald) og derefter kan man undersøge hvilke features der diskriminerer mest (for eksempel klassestørrelse). I f.eks. Python Statsmodels får man også statistik ud på de enkelte features efter at have kørt den almindelige OLS model.

12
12. juni 2014 kl. 13:56

Desuden virker projektet her mere som data mining, der leder efter ukendte sammenhænge, fremfor machine learning der anvender kendte sammenhænge til at undervise maskinen.

Det ene udelukker for såvidt ikke det andet. Hvis han har brugt ex. Bayesian klassifikation til udfra et input (de nævnte faktorer) at estimere om en elev dropper ud eller ej, så er det machine learning. At man så ikke nødvendigvis har helt styr på betydningen af samtlige input (features) inden klassifikationen, gør ikke noget.

3
12. juni 2014 kl. 09:58

Uden at skulle gøre mig til ekspert på området, så kunne det sagtens tænkes at der er flere features der kunne være relevante. Kombineret med endnu flere data, samt optimering af algorithmen, er det vel ikke urealistisk at sigte efter 95% accuracy?

Spørgsmålet er så om man kan bruge det til noget? I.e. kan man forhindre at folk dropper ud, når man ved de vil gøre det.

2
12. juni 2014 kl. 09:50

Den vigtigste enkeltstående faktor er klassestørrelse, lige efter kommer elevens fraværsstatistik for den seneste måned, og så følger faktorerne ellers nedad: Skolens størrelse, den gennemsnitlige indkomst i elevens boligområde, lærer-elev-ratio, missede afleveringer, køn, etnicitet og afstand til skole. Alle spiller de ind på elevens chance for at fuldføre uddannelsen.

70.000 rækker og 9 kolonner = Big data? Det kan man jo have i et regneark.

7
12. juni 2014 kl. 11:46

Jeg undrer mig også over at man kalder dette "Big Data". Hverken data mængden eller det man har gjort lyder nævneværdigt forskelligt fra det mange almindelige firmaer laver i deres BI afdeling.

11
12. juni 2014 kl. 13:49

Enig. Det virker som et alm gammeldags data mining projekt, som kan have været lavet med data fra et excelark og f.eks. MATLAB

Der er ikke noget der tyder på at BigData teknologier (HDFS, Hadoop Map Reduce, Hive, Pig, HBase, Spark eller lignende) har været brugt.

Men indtil man kender det nøjagtige værktøjsvalg kan man naturligvis ikke afvise at det er lavet med BigData teknologier

1
12. juni 2014 kl. 08:52

Finder det interessant at klassestørrelse (som vel er i familie med lærer/elev-ratio?) betyder meget. Måske var det et argument for at justere hvor store klasser må være?