Når vi lever i et overvågningssamfund, hvor alt fra vores præferencer for kattebilleder til vores nummerplader trackes og noteres, kan det være svært at forestille sig en tid, hvor folk kunne komme og gå, uden at myndighederne vidste det.
Det er blevet hovedpinen for Rigsarkivet, som står med navne, adresser og job på millioner af danskere fra 1800-tallet, som de gerne vil analysere for blandt andet at kunne undersøge industrialiseringen i Danmark. Deres største udfordring er, at folk stavede elendigt.
»Jeg har identificeret 300 forskellige måder at skrive København forkert på,« siger David Hammer, ph.d.-studerende i datalogi på SDU, til Version2.
Han er en del af en gruppe studerende, som har har taget udfordringen op, og de har allieret sig med supercomputeren ABACUS 2.0 for at matche danskere på tværs af fem folketællinger fra enevældens fald.
Hæftig præprocessering
Hammer og hans gruppe har aldrig arbejdet med supercomputere før. Og det var en af grundene til, at de meldte sig til SDU Supercomputer Challenge og tog imod udfordringen, som Rigsarkivet havde stillet.
Dong, Intelligent Banker og SDU selv er blandt de andre, der er kommet med udfordringer til konkurrencen, som går ud på at løse problemer fra den virkelige verden med supercomputere.
Gruppens udgangspunkt er et datasæt af fem folketællinger fra perioden 1845-1885 med informationer på ca. 1 mio. danskere i hver.
Folketællingerne opgør navne, adresser, fødeår, sted og køn samt arbejde og er oprindeligt skrevet ind i hånden.
»Vores opgave er så at sammenkæde personer på tværs af de år. Og da der hverken var CPR-numre eller retstavning dengang, er udfordringen at finde ikke-eksakte, men stadig overbevisende matches mellem folk fra f.eks. 1845 og 1850,« fortæller Hammer.
»Vores plan er at træne et neuralt netværk til at vurdere, om to givne rækker kan repræsentere den samme person eller ej,« siger han.
Gruppen har indtil nu formået at imponere dommerne i SDU Supercomputer Challenge, som har honoreret dem med 8.000 timers brug af supercomputeren ABACUS 2.0. Hammer håber, at de kan begynde at træne netværket i oktober, men indtil da skal de optimere deres program og rense ud i data.
»Det meste af tiden går med at rette eller fjerne data, hvor der mangler for meget til, at man kan identificere noget. Nogle felter står der bare ‘ditto' eller 'født heromkring,’ og så må man jo prøve at inferere, hvad de mener med det,« fortæller han.
Deep learning med TensorFlow
Hammer mener ikke, at gruppens problem skiller sig meget ud fra det, man kan løse med normal programmering. Det er størrelsesordenen, der gør, at det er et supercomputer-projekt.
»Det er heller ikke, fordi computeren virker så meget anderledes - det ligner til forveksling et command-line interface. Bare med meget mere kraft bagved,« siger han.
Gruppen vil bruge deres første 8.000 timer på supercomputeren til at få topologien, altså opbygningen på det neurale netværk, til at fungere så optimalt som muligt.
En af de store udfordringer inden for supercomputing er normalt at få problemer nok til at køre i parallel, men der er gruppen heldige.
»Vi kan relativt let dele datasættene op i f.eks. initialer. Så har vi flere delproblemer med data i størrelsesordenen 10.000, som kan startes samtidig,« siger han.
Projektet er stadig på forsøgsstadiet, så deres neurale netværk er en standardmodel i TensorFlow-frameworket. Valget faldt på Googles framework, fordi det var det mest udbredte og veldokumenterede og derfor det letteste at komme i gang med.
Gruppen og de seks andre deltagere i SDU Supercomputer Challenge har til november til at køre deres programmer igennem ABACUS og optimere dem, før de skal fremlægge deres program i finalen. Hvis deres projekt er blandt de tre bedste, får de del af præmiepuljen på 75.000 kr.