Sådan vil DIKU-studerende afsløre snyd med studentereksamen

30. april 2013 kl. 10:44
Den flydende grænse mellem at lade sig inspirere af andre og så decideret afskrift er én af udfordringerne for at programmere en automatisk kontrol for plagiater til skriftlige eksamener.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Hvis de skriftlige studentereksamener gøres fuldstændigt digitale, så kan det blive lettere for eleverne at snyde ved at kopiere hinandens tekster. Men ligesom computeren gør det let at kopiere en tekst, så giver den også mulighed for at afsløre snyd.

En gruppe studerende fra Datalogisk Institut ved Københavns Universitet arbejder i øjeblikket på at udvikle en plagiatkontrol, som kan bruges i forbindelse med skriftlige studentereksamener.

Projektet bygger videre på en plagiatkontrol, som to specialestuderende fra DTU Informatik udviklede til studieadministrationssystemet Lectio for leverandøren Macom.

Den version er dog bedst til at finde direkte afskrifter i nye tekster i forhold til tekster, der allerede findes i databasen. Det system skal nu udvides til at kunne sammenligne en ny tekst med et fingeraftryk for forfatterens skrivestil.

Artiklen fortsætter efter annoncen

»Jeg afprøver to metoder, som jeg har valgt ud fra, hvad der tidligere har fungeret godt, men det gør de måske ikke i denne situation. I tidligere tekstanalyser har der ikke været fokus på at analysere mange tekster fra mange forfattere, og der har ikke været en tidsfaktor,« forklarer studerende Niels Dalum Hansen fra DIKU til Version2.

Ved de skriftlige studentereksamener står man med afleveringer fra tusindvis af elever. Dem skal man forsøge at finde plagiater blandt inden for en kort tidsramme.

En af metoderne, som Niels Dalum Hansen forsøger sig med, er at analysere såkaldte tri-grammer i en tekst, som er kombinationer af tre tegn, der optræder ved siden af hinanden i en tekst. De kan analyseres ved hjælp af supportvektormaskiner til at danne et fingeraftryk for hver elev ud fra elevens tidligere afleveringsopgaver.

På den måde kan man beregne en sandsynlighed for, at en tekst er skrevet af den samme forfatter, som har skrevet et antal tidligere tekster.

Det er en metode, som fungerer godt for etablerede forfattere, men det er ikke sikkert, at den i praksis fungerer lige så godt på gymnasieelever.

»Måske udvikler man sin skrivestil i løbet af sin gymnasietid. Det påvirker det måske også, hvilke typer tekst man skriver, for hvor mange forskellige måder kan man eksempelvis skrive en boganmeldelse på?« siger Niels Dalum Hansen.

En anden metode er at benytte lingvistisk cross entropi til at danne et fingeraftryk for den enkelte tekst. Her kan man eksempelvis reducere de enkelte ord til deres grundformer for at undgå, at elever blot kan skifte en formulering fra datid til nutid for at sløre, at de har skrevet af.

Men den metode giver også udfordringer, når det gælder opgaver, hvor mange elever skal skrive om det samme emne.

»Hvis man snakker med andre i klassen om opgaven, og så skriver nogle af de samme konklusioner, så har man måske kopieret en idé, men er det snyd?« siger Niels Dalum Hansen.

I dag indeholder Lectio-systemet en funktion til plagiatkontrol, hvor underviseren kan vælge at teste, om en skriftlig aflevering matcher fingeraftrykket for opgaver, som den samme elev tidligere har afleveret.

I forbindelse med studentereksamenerne denne sommer vil flere gymnasier køre et forsøg, hvor alle skriftlige afleveringer fra de elever, der går på et hold, der er med i forsøget, bliver kørt gennem plagiatkontrollen.

Den udvidelse, som Niels Dalum Hansen arbejder på, skal således gøre det muligt at lave en hurtig analyse på et stort antal opgaver på kort tid. For at øge præcisionen vil han kombinere de eksisterende algoritmer i plagiatkontrollen med flere nye for at opnå en mere nøjagtig udregning af sandsynligheden for, at en given aflevering er et plagiat.

Til den færdige løsning arbejder Niels Dalum Hansen med C# i kombination med Python til analyse og visualisering.

Ingen kommentarer endnu.  Start debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger