Dansk maskinoversættelse skal redde det bornholmske sprog
Et basalt værktøj til maskinoversættelse, der kan oversætte fra bornholmsk til rigsdansk og omvendt, ligesom Google Translate, er en sprogteknologisk brik, der ligefrem kan hjælpe med til at redde bornholmsk fra at uddø.
Der er dog tale om en prototype, der kræver mere fintuning, fortæller Leon Derczynski, der er adjunkt på IT-Universitetet, til universitetets nyhedsside.
Og det er næppe den nemmeste opgave, forskerne har stillet sig selv.
»'Ded e Mads å hajn e ejn goer horra,« bliver på rigsdansk til: »Det er Mads, og han er en god dreng.«
»Halvdelen af gangene kan den oversætte til noget forståeligt, men vi har brug for mere data for at kunne optimere den. Heldigvis er data begyndt at strømme ind, efterhånden som rygtet om projektet har spredt sig, og de data bruger vi til at videreudvikle værktøjet,« siger han.
Foreløbig kommer de fleste data fra frivillige, som indsamler gamle avisartikler og bøger på bornholmsk og skriver dem ind på en computer manuelt.
Der findes nemlig endnu ingen scanningsværktøjer til tekst, der virker ordentligt på bornholmsk. Det er en anden sprogteknologisk løsning, som Leon Derczynski håber at kunne udvikle på sigt.
Modeller kan redde sprog
De sprogteknologiske modeller, der ligger bag maskinoversættelsen, kan hjælpe forskere med at bevare og dele viden om sproget.
»Når vi først har kortlagt, hvordan bornholmsk er bygget op, og hvordan man bearbejder det, vil forskere også nemmere kunne beskrive og bevare sproget. I stedet for at skulle forbi en museumskælder på en klippeø ude i Østersøen for at studere det kan forskere fra hele verden få tilsendt digitale filer med modellerne på få sekunder,« siger Leon Derczynski.
Den nye teknologi udvikles i samarbejde med Alex Speed Kjeldsen, som er sprogforsker på Københavns Universitet.
Sprogteknologi handler om at lære computere at forstå sprog og er hovedingrediensen i teknologier som Google Translate, chatbots og digitale assistenter som Siri og Google Home.
»Fordi det digitale fylder så meget i vores hverdag, er det vigtigt, at folk kan få en god digital oplevelse med sproget – ellers vil de stoppe med at bruge det. En Google-søgning på bornholmsk vil for eksempel give meget dårlige resultater, fordi søgemaskinen ikke genkender og forstår sproget. Folk vil derfor bruge dansk i stedet,« siger Leon Derczynski.
Indsamler materiale til en bornholmsk ordbog
At udvikle sprogteknologi kræver, at man fodrer computere med store mængder data i form af digitale tekster. Ud fra disse lærer computeren at identificere sprogets mønstre og karakteristika. Udfordringen ved et lille sprog som bornholmsk er, at der ikke findes ret meget digitalt skriftligt materiale, fortæller han.
»Der findes enkelte hjemmesider med bornholmske sangtekster, enkelte tekster på de sociale medier og en Wikipedia-side med få hundrede ord,« fortæller han.
Via samarbejdet med Alex Speed Kjeldsen, som er i gang med at indsamle materiale til en bornholmsk ordbog, har han dog fået adgang til et stort digitalt arkiv med blandt andet gamle eventyr på både bornholmsk og dansk. Med dette datasæt er det lykkedes at opbygge en værktøjskasse, der blandt andet gør computeren i stand til at forstå, hvilken funktion et bestemt ord har i en tekst.
Alex Speed Kjeldsen tænker at sprogteknologien kan at ændre dialektens status blandt de yngre bornholmere:
»Hvis det overhovedet skal kunne lade sig gøre at bevare dialekten i en eller anden form, skal det at tale bornholmsk forbindes med prestige, en følelse af at beherske et unikt sprog i en stadigt mere globaliseret verden. En kombination af sprogteknologiske værktøjer, der gør det muligt at anvende bornholmsk i medier, som de unge anvender, og tiltag som sætter fokus på sammenhængen mellem bornholmsk identitet og sprog, er måske vores eneste chance for at booste en positiv opfattelse af sproget og dermed ændre dets status,« siger han.
For Leon Derczynski handler arbejdet med bornholmsk om at bruge teknologien som redskab til at bevare en vigtig del af den danske kulturarv:
»Når man arbejder med sprog, er det trist at se regionale sprog og dialekter uddø lige foran næsen på én. Hvis et sprog som bornholmsk forsvinder, mister vi også et vigtigt stykke dansk kulturarv, og det ville være trist,« slutter han.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.