Sådan vil DIKU-studerende afsløre snyd med studentereksamen

Den flydende grænse mellem at lade sig inspirere af andre og så decideret afskrift er én af udfordringerne for at programmere en automatisk kontrol for plagiater til skriftlige eksamener.

Hvis de skriftlige studentereksamener gøres fuldstændigt digitale, så kan det blive lettere for eleverne at snyde ved at kopiere hinandens tekster. Men ligesom computeren gør det let at kopiere en tekst, så giver den også mulighed for at afsløre snyd.

En gruppe studerende fra Datalogisk Institut ved Københavns Universitet arbejder i øjeblikket på at udvikle en plagiatkontrol, som kan bruges i forbindelse med skriftlige studentereksamener.

Projektet bygger videre på en plagiatkontrol, som to specialestuderende fra DTU Informatik udviklede til studieadministrationssystemet Lectio for leverandøren Macom.

Den version er dog bedst til at finde direkte afskrifter i nye tekster i forhold til tekster, der allerede findes i databasen. Det system skal nu udvides til at kunne sammenligne en ny tekst med et fingeraftryk for forfatterens skrivestil.

»Jeg afprøver to metoder, som jeg har valgt ud fra, hvad der tidligere har fungeret godt, men det gør de måske ikke i denne situation. I tidligere tekstanalyser har der ikke været fokus på at analysere mange tekster fra mange forfattere, og der har ikke været en tidsfaktor,« forklarer studerende Niels Dalum Hansen fra DIKU til Version2.

Ved de skriftlige studentereksamener står man med afleveringer fra tusindvis af elever. Dem skal man forsøge at finde plagiater blandt inden for en kort tidsramme.

En af metoderne, som Niels Dalum Hansen forsøger sig med, er at analysere såkaldte tri-grammer i en tekst, som er kombinationer af tre tegn, der optræder ved siden af hinanden i en tekst. De kan analyseres ved hjælp af supportvektormaskiner til at danne et fingeraftryk for hver elev ud fra elevens tidligere afleveringsopgaver.

På den måde kan man beregne en sandsynlighed for, at en tekst er skrevet af den samme forfatter, som har skrevet et antal tidligere tekster.

Det er en metode, som fungerer godt for etablerede forfattere, men det er ikke sikkert, at den i praksis fungerer lige så godt på gymnasieelever.

»Måske udvikler man sin skrivestil i løbet af sin gymnasietid. Det påvirker det måske også, hvilke typer tekst man skriver, for hvor mange forskellige måder kan man eksempelvis skrive en boganmeldelse på?« siger Niels Dalum Hansen.

En anden metode er at benytte lingvistisk cross entropi til at danne et fingeraftryk for den enkelte tekst. Her kan man eksempelvis reducere de enkelte ord til deres grundformer for at undgå, at elever blot kan skifte en formulering fra datid til nutid for at sløre, at de har skrevet af.

Men den metode giver også udfordringer, når det gælder opgaver, hvor mange elever skal skrive om det samme emne.

»Hvis man snakker med andre i klassen om opgaven, og så skriver nogle af de samme konklusioner, så har man måske kopieret en idé, men er det snyd?« siger Niels Dalum Hansen.

I dag indeholder Lectio-systemet en funktion til plagiatkontrol, hvor underviseren kan vælge at teste, om en skriftlig aflevering matcher fingeraftrykket for opgaver, som den samme elev tidligere har afleveret.

I forbindelse med studentereksamenerne denne sommer vil flere gymnasier køre et forsøg, hvor alle skriftlige afleveringer fra de elever, der går på et hold, der er med i forsøget, bliver kørt gennem plagiatkontrollen.

Den udvidelse, som Niels Dalum Hansen arbejder på, skal således gøre det muligt at lave en hurtig analyse på et stort antal opgaver på kort tid. For at øge præcisionen vil han kombinere de eksisterende algoritmer i plagiatkontrollen med flere nye for at opnå en mere nøjagtig udregning af sandsynligheden for, at en given aflevering er et plagiat.

Til den færdige løsning arbejder Niels Dalum Hansen med C# i kombination med Python til analyse og visualisering.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Kommentarer (0)

Log ind eller opret en konto for at skrive kommentarer