Supercomputer skal finde mønstre i folketællinger fra enevældens fald

abacus supercomputer sdu
Studerende fra SDU vil matche kæmpe datasæt fra 1800 tallet og finde mønstre, men menneskelige fejl står i vejen.

Når vi lever i et overvågningssamfund, hvor alt fra vores præferencer for kattebilleder til vores nummerplader trackes og noteres, kan det være svært at forestille sig en tid, hvor folk kunne komme og gå, uden at myndighederne vidste det.

Det er blevet hovedpinen for Rigsarkivet, som står med navne, adresser og job på millioner af danskere fra 1800-tallet, som de gerne vil analysere for blandt andet at kunne undersøge industrialiseringen i Danmark. Deres største udfordring er, at folk stavede elendigt.

»Jeg har identificeret 300 forskellige måder at skrive København forkert på,« siger David Hammer, ph.d.-studerende i datalogi på SDU, til Version2.

Han er en del af en gruppe studerende, som har har taget udfordringen op, og de har allieret sig med supercomputeren ABACUS 2.0 for at matche danskere på tværs af fem folketællinger fra enevældens fald.

Hæftig præprocessering

Hammer og hans gruppe har aldrig arbejdet med supercomputere før. Og det var en af grundene til, at de meldte sig til SDU Supercomputer Challenge og tog imod udfordringen, som Rigsarkivet havde stillet.

Dong, Intelligent Banker og SDU selv er blandt de andre, der er kommet med udfordringer til konkurrencen, som går ud på at løse problemer fra den virkelige verden med supercomputere.

Gruppens udgangspunkt er et datasæt af fem folketællinger fra perioden 1845-1885 med informationer på ca. 1 mio. danskere i hver.

Folketællingerne opgør navne, adresser, fødeår, sted og køn samt arbejde og er oprindeligt skrevet ind i hånden.

»Vores opgave er så at sammenkæde personer på tværs af de år. Og da der hverken var CPR-numre eller retstavning dengang, er udfordringen at finde ikke-eksakte, men stadig overbevisende matches mellem folk fra f.eks. 1845 og 1850,« fortæller Hammer.

»Vores plan er at træne et neuralt netværk til at vurdere, om to givne rækker kan repræsentere den samme person eller ej,« siger han.

Gruppen har indtil nu formået at imponere dommerne i SDU Supercomputer Challenge, som har honoreret dem med 8.000 timers brug af supercomputeren ABACUS 2.0. Hammer håber, at de kan begynde at træne netværket i oktober, men indtil da skal de optimere deres program og rense ud i data.

»Det meste af tiden går med at rette eller fjerne data, hvor der mangler for meget til, at man kan identificere noget. Nogle felter står der bare ‘ditto' eller 'født heromkring,’ og så må man jo prøve at inferere, hvad de mener med det,« fortæller han.

Deep learning med TensorFlow

Hammer mener ikke, at gruppens problem skiller sig meget ud fra det, man kan løse med normal programmering. Det er størrelsesordenen, der gør, at det er et supercomputer-projekt.

Close up af Abacus' nodes Foto: SDU

»Det er heller ikke, fordi computeren virker så meget anderledes - det ligner til forveksling et command-line interface. Bare med meget mere kraft bagved,« siger han.

Gruppen vil bruge deres første 8.000 timer på supercomputeren til at få topologien, altså opbygningen på det neurale netværk, til at fungere så optimalt som muligt.

En af de store udfordringer inden for supercomputing er normalt at få problemer nok til at køre i parallel, men der er gruppen heldige.

»Vi kan relativt let dele datasættene op i f.eks. initialer. Så har vi flere delproblemer med data i størrelsesordenen 10.000, som kan startes samtidig,« siger han.

Projektet er stadig på forsøgsstadiet, så deres neurale netværk er en standardmodel i TensorFlow-frameworket. Valget faldt på Googles framework, fordi det var det mest udbredte og veldokumenterede og derfor det letteste at komme i gang med.

Gruppen og de seks andre deltagere i SDU Supercomputer Challenge har til november til at køre deres programmer igennem ABACUS og optimere dem, før de skal fremlægge deres program i finalen. Hvis deres projekt er blandt de tre bedste, får de del af præmiepuljen på 75.000 kr.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Følg forløbet

Kommentarer (3)

Kommentarer (3)
Troels Henriksen

Er der nogen der ved hvorledes denne maskine er konstrueret? Da den blev offentliggjort kan jeg huske der var en del kritik af dens åbenbart uortodokse design, så jeg er nysgerrig omkring hvordan det har påvirket dens anvendelser. Ifølge denne side fra 2015 har Abacus 2.0 regnekraft svarende til 582 TFLOPS, men jeg har svært ved at finde andre detaljer.

Niels Dybdahl

Desværre er initialer ikke helt entydige i folketællingerne. Hvis en person har mere end et fornavn, så bliver nogle gange det ene anvendt og andre gange det andet. Efternavnet er også tit udeladt for børn og netop i 1800 tallet skiftede man fra patronymer (sin fars fornavn+ sen eller datter) til at hele familien fik faderens efternavn.
Så initialer/navn er kun en usikker parameter ligesom alder, bopæl, fødselssted, beskæftigelse og dem man bor sammen med er det.
Men interessant er det da at få en computer til at matche folketællingerne.

Log ind eller opret en konto for at skrive kommentarer

Pressemeddelelser

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 10:55

Affecto has the solution and the tools you need

According to GDPR, you are required to be in control of all of your personally identifiable and sensitive data. There are only a few software tools on the market to support this requirement today.
13. sep 10:28

Xena - an innovative force in testing next-generation communications technology

22. aug 2017