Dansk maskinoversættelse skal redde det bornholmske sprog

26. september 2019 kl. 05:125
Dansk maskinoversættelse skal redde det bornholmske sprog
Illustration: Bigstock.
En 'Google Translate' fra IT-Universitetet og Københavns Universitet skal redde bornholmsk fra at uddø.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Et basalt værktøj til maskinoversættelse, der kan oversætte fra bornholmsk til rigsdansk og omvendt, ligesom Google Translate, er en sprogteknologisk brik, der ligefrem kan hjælpe med til at redde bornholmsk fra at uddø.

Der er dog tale om en prototype, der kræver mere fintuning, fortæller Leon Derczynski, der er adjunkt på IT-Universitetet, til universitetets nyhedsside.

»Hvis et sprog som bornholmsk forsvinder, mister vi også et vigtigt stykke dansk kulturarv, og det ville være trist.« Sådan motiverer Leon Derczynski, der er adjunkt, IT-Universitetet, arbejdet med bornholmsk sprogteknologi.

Og det er næppe den nemmeste opgave, forskerne har stillet sig selv.

Artiklen fortsætter efter annoncen

»'Ded e Mads å hajn e ejn goer horra,« bliver på rigsdansk til: »Det er Mads, og han er en god dreng.«

»Halvdelen af gangene kan den oversætte til noget forståeligt, men vi har brug for mere data for at kunne optimere den. Heldigvis er data begyndt at strømme ind, efterhånden som rygtet om projektet har spredt sig, og de data bruger vi til at videreudvikle værktøjet,« siger han.

Foreløbig kommer de fleste data fra frivillige, som indsamler gamle avisartikler og bøger på bornholmsk og skriver dem ind på en computer manuelt.

Der findes nemlig endnu ingen scanningsværktøjer til tekst, der virker ordentligt på bornholmsk. Det er en anden sprogteknologisk løsning, som Leon Derczynski håber at kunne udvikle på sigt.

Modeller kan redde sprog

De sprogteknologiske modeller, der ligger bag maskinoversættelsen, kan hjælpe forskere med at bevare og dele viden om sproget.

Artiklen fortsætter efter annoncen

»Når vi først har kortlagt, hvordan bornholmsk er bygget op, og hvordan man bearbejder det, vil forskere også nemmere kunne beskrive og bevare sproget. I stedet for at skulle forbi en museumskælder på en klippeø ude i Østersøen for at studere det kan forskere fra hele verden få tilsendt digitale filer med modellerne på få sekunder,« siger Leon Derczynski.

Den nye teknologi udvikles i samarbejde med Alex Speed Kjeldsen, som er sprogforsker på Københavns Universitet.

Sprogteknologi handler om at lære computere at forstå sprog og er hovedingrediensen i teknologier som Google Translate, chatbots og digitale assistenter som Siri og Google Home.

»Fordi det digitale fylder så meget i vores hverdag, er det vigtigt, at folk kan få en god digital oplevelse med sproget – ellers vil de stoppe med at bruge det. En Google-søgning på bornholmsk vil for eksempel give meget dårlige resultater, fordi søgemaskinen ikke genkender og forstår sproget. Folk vil derfor bruge dansk i stedet,« siger Leon Derczynski.

Indsamler materiale til en bornholmsk ordbog

At udvikle sprogteknologi kræver, at man fodrer computere med store mængder data i form af digitale tekster. Ud fra disse lærer computeren at identificere sprogets mønstre og karakteristika. Udfordringen ved et lille sprog som bornholmsk er, at der ikke findes ret meget digitalt skriftligt materiale, fortæller han.

»Der findes enkelte hjemmesider med bornholmske sangtekster, enkelte tekster på de sociale medier og en Wikipedia-side med få hundrede ord,« fortæller han.

Via samarbejdet med Alex Speed Kjeldsen, som er i gang med at indsamle materiale til en bornholmsk ordbog, har han dog fået adgang til et stort digitalt arkiv med blandt andet gamle eventyr på både bornholmsk og dansk. Med dette datasæt er det lykkedes at opbygge en værktøjskasse, der blandt andet gør computeren i stand til at forstå, hvilken funktion et bestemt ord har i en tekst.

Alex Speed Kjeldsen tænker at sprogteknologien kan at ændre dialektens status blandt de yngre bornholmere:

»Hvis det overhovedet skal kunne lade sig gøre at bevare dialekten i en eller anden form, skal det at tale bornholmsk forbindes med prestige, en følelse af at beherske et unikt sprog i en stadigt mere globaliseret verden. En kombination af sprogteknologiske værktøjer, der gør det muligt at anvende bornholmsk i medier, som de unge anvender, og tiltag som sætter fokus på sammenhængen mellem bornholmsk identitet og sprog, er måske vores eneste chance for at booste en positiv opfattelse af sproget og dermed ændre dets status,« siger han.

For Leon Derczynski handler arbejdet med bornholmsk om at bruge teknologien som redskab til at bevare en vigtig del af den danske kulturarv:

»Når man arbejder med sprog, er det trist at se regionale sprog og dialekter uddø lige foran næsen på én. Hvis et sprog som bornholmsk forsvinder, mister vi også et vigtigt stykke dansk kulturarv, og det ville være trist,« slutter han.

5 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
5
26. september 2019 kl. 16:13

Kunne vi ikke snart få lidt koordination på initiativer indenfor dette område?

Det ville være hensigtsmæssigt, og der er måske noget på vej: https://www.version2.dk/artikel/udvikling-dansk-sprogbank-markedet-kan-ikke-loefte-opgaven-selv-1087106

Mængden af tilgængelige sprogresourcer på dansk er begrænset af flere årsager:

  • Der er ikke et frit tilgængeligt korpus med moderne dansk. Det som findes, KorpusDK, sidder Dansk Sprog- og Litteraturselskab på. I Sverige har staten siden 1975 financieret Språkbanken på Göteborg Universitet, som er frit tilgængeligt.
  • Tekniske resourcer, f.eks. morfologisk ordbog, er der ikke financieret vedligehold og udgivelse af.
    • det er mit indtryk, at universiteternes sprogafdelinger ikke samarbejder så meget som de kunne, af frygt for at bevillingerne går til et andet universitet.

vores fællessprog, rigsdansk

Mente du "københavns dialekt" ?

Ja, det er en provokation, men relevant i forbindelse med emnet dialekter.

3
26. september 2019 kl. 12:37

Med al respekt for bornholmere og deres sprog (samt alle de mange andre små sprog og dialekter der vil uddø), så virker det her lidt komisk.

Vi står i en situation hvor vores fællessprog, rigsdansk, er for lille til at det kan understøttes bare nogenlunde hæderligt, af teknologier til talegenkendelse og sprogforståelse. Og nu skal vi så bruge ressourcer på at gøre et skidt arbejde ud af at lægge bornholmsk på formel?

Kunne vi ikke snart få lidt koordination på initiativer indenfor dette område?

Vi er nødt til at fokusere indsatsen på universiteter og i det private, i retning af at få god dansk sprogunderstøttelse, så vi først og fremmest kan optimere sundhedssektoren, men også private initiativer.

Misforstå mig ikke, det er dejligt der er folk som prøver lidt hist og pist, men vi kommer ingen vegne, hvis ikke der snart sætter sig en voksen for bordenden.

2
26. september 2019 kl. 12:16

Det kan da sikkert være et spændende studio for en linkvist studerende / færdig udannede, men ude i den virkelig verden lader det til af Dansk bliver mere og mere engelsk

1
26. september 2019 kl. 11:52

"Når man arbejder med sprog, er det trist at se regionale sprog og dialekter uddø lige foran næsen på én" Når man ser på behandling af dialekter rundt om i verden, er det tydeligt at den danske (Københavnske) centraladministration har gebærdet, og stadig gebærder sig som koloniherrer. Senest har jeg set at Bjerre skov nu skal hedde Bjerge skov, fordi det er "mere korrekt", efter en styrelse, som åbenlyst har for mange folk i forhold til opgaverne.