Sådan fik udviklerne et sjovt spil ud af 75 GB skattedata

Illustration: Donkraft Digital
Danske Donkraft Digital har lavet Pokemon Go for biler ud fra en massiv mængde åbne bildata fra Skat, og det var ikke uden udfordringer.

Street Cars er et nyt dansk spil, hvor man scanner biler på gaden og ræser dem mod sine venner online. Spillet er gjort muligt af Skats motorregister, som udviklerne Donkraft Digital baserer sit spil på.

De blev dog overvældet, da de fik fingrene i databasen første gang. Det var nemlig en 75 GB XML-fil med data om alle registrerede biler, fra nummerpladen blev indført i 1903 til 2018, fortæller Simon Vestergaard, lead programmer på spillet.

»Og ud af de flere end 50 forskellige datapunkter var der omkring 15, som vi rent faktisk kunne bruge,« fortæller Vestergaard.

Der var data om alt fra CO2-udledning til antal døre på bilerne, der var fuldstændig irrelevant for spillet. Der stod derfor et ordentligt oprydningsarbejde foran Donkraft Digital, før de overhovedet kunne begynde at lege med bilerne.

Læs også: Spil bygger på Skats data om 2,5 mio. biler: Scan vilkårlig bil, indtag rattet virtuelt og kør

Fed-finger-fejl og manglende data

Målet med datasættet er at identificere en konkret bilmodel og data om bilens topfart, køreevne etc., når en nummerplade scannes af appen. Så da datasættet endelig var renset for data, der ikke kunne bruges til at identificere bilmodellen, løb Donkraft Digital ind i det modsatte problem. Der var ikke nok data om to vigtige punkter for spillet: fart og registreringsår.

Fart var især kritisk, da dette parameter skulle bruges direkte til at ræse i spillet, og det var især ældre registreringer af biler, der manglede data. Den udfordring løste udviklerholdet ved at samkøre data i en database med EU-typenumre, som fordoblede antallet af registreringer under de mangelfulde datapunkter.

»Så havde vi selvfølgelig også de sædvanlige skriftproblemer. En Tesla kunne både været registreret som Model S, Model-S, S-Model og så videre,« fortæller Vestergaard.

Et af de mere ødelæggende problemer for spillet var også fed-finger-fejl. Holdet fandt således en bil i registeret, der angiveligt kunne køre 2.600 kilometer i timen, hvilket ville give en signifikant fordel til den heldige spiller, som scannede den.

16 klassifikationer

Med et tilstrækkeligt fyldestgørende og renset datasæt kunne holdet endelig gå i gang med at lege. De lavede et system, der sorterede biler efter data om vægt, køreevne og registreringsår i 16 kategorier, som bestemte, hvordan den scannede nummerplade blev oversat til en bil i spillet.

Det var nemlig ikke realistisk at lave en 3D-model til hver eneste unikke bil i Danmark, og modellerne er derfor tildelt en 3D-model ud fra 16 klassifikationer såsom »tung sportsvogn,« eller »mini luksusbil.«

Her opstod der igen problemer med Teslaerne og de øvrige elbiler, da de er tungere end de øvrige biler i deres kategorier. Der blev derfor deduceret en fast vægt for alle elbiler, så de blev mere korrekt klassificeret.

Med en sorteringsalgoritme på plads og en masse flotte 3D-modeller klar gik holdet på gaden for at teste spillet, hvilket medførte mistænksomme blikke.

»Folk troede simpelthen, vi var parkeringsvagter. Vi måtte forklare os over for flere bilejere, der troede, vi fotograferede deres nummerplader for at sladre om deres parkeringer, men de syntes heldigvis, det var cool nok, når vi forklarede dem vores spil,« fortæller Vestergaard.

Endelig skulle bilerne kunne ræse. Her bruges data direkte fra motorregisteret omkring topfart og acceleration til at influere bilernes køreevne på spillets lille bane, mens manøvre-evnen bestemmes ved en samkøring af data om bl.a. vægt.

Fremtidige udfordringer

Donkraft Digital har også taget en række sikkerhedshensyn i udviklingen af spillet. Appen opfanger ikke lokationsdata, da det ville være uheldigt, hvis man kunne finde ud af, hvor dyre sportsbiler var parkeret, ved at hacke appen.

Vestergaard indrømmer dog, at folk teoretisk set kan snyde i spillet ved at manipulere med det åbne datasæt, men tvivler alligevel på, at en medarbejder i Skat ville risikere sit job for at blive den hurtigste ræser på kontoret.

Mere teknisk kyndige snydere kan da også selv downloade datasættet og finde frem til Danmarks hurtigste biler og scanne dem, men det er ikke noget, der holder Vestergaard vågen om natten.

Donkraft Digital arbejder på at forbedre spillet i Danmark, men planlægger at udgive i flere lande i fremtiden og skal derfor lege med endnu flere – og endnu større – datasæt i fremtiden. Dog skal de lige løse et lavpraktisk problem først:

Bilernes farve i spillet bestemmes af en billedgenkendelsesalgoritme, og den bliver snydt af manglende lys på sit nuværende stadie. Scanner man bilen om natten, får man derfor mange sorte biler.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (3)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Povl Hansen

"Holdet fandt således en bil i registeret der angiveligt kunne køre 2.600 kilometer i timen, hvilket ville give en signifikant fordel til den heldige spillere, som scannede den."

Den skulle de da have blive i spillet, som en bonus bil, hvis man var heldig nok til skanne lige netop den bil :)

  • 3
  • 0
Mads T. Jensen

"Mere teknisk kyndige snydere kan da også selv downloade datasættet og finde frem til Danmarks hurtigste biler og scanne dem, men det er ikke noget, der holder Vestergaard vågen om natten."

Man må gå ud fra det så er offentligt tilgængeligt ? Det kræver vel ikke teknisk kyndighed at downloade et datasæt, mere lavpraktisk viden om hvor det ligger ?

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize