Udvikling af dansk sprogbank: Markedet kan ikke løfte opgaven selv

Illustration: Big Stock
Mangel på ressourcer om dansk sprog står i vejen for AI-anvendelse hos både virksomheder og myndigheder. Men opbygning af sprogressource er ikke en triviel eller billig opgave, viser nordiske erfaringer.

Udviklingen af en dansk sprogressource er essentiel, når det gælder danske myndigheders og virksomheders mulighed for at bruge AI-teknologi.

Det vurderer Deloitte i en forundersøgelsesrapport, som selskabet har lavet for Digitaliseringsstyrelsen, og som DataTech har fået aktindsigt i.

Regeringen præsenterede i oktober ambitionen om at bringe ‘dansk sprogteknologi i verdensklasse’ ved at opbygge »en sprogressource på dansk, der sættes til fri afbenyttelse, så leverandørerne har en fælles sprogressource af høj kvalitet, der giver dem mulighed for at udvikle gode løsninger inden for talegenkendelse og sprogforståelse med et højt præcisionsniveau«.

Forud for den udmelding har Digitaliseringsstyrelsen altså bedt Deloitte om en kortlægning af behovet og de mulige løsninger. Af rapporten fremgår det blandt andet, at man ikke kan satse på, at markedskræfterne løser problemet, hvis blot der er nok, som efterspørger ressourcen.

»Det er vurderingen, at aktørerne i markedet (leverandører, myndigheder og virksomheder) ikke er i stand til at selv at løse udfordringen med sprogteknologi på dansk,« skriver Deloitte i rapporten.

De mindre samarbejder, der trods alt eksisterer, er for snævre til at gøre en bredere forskel – de er »til gavn for de involverede, ikke for alle«, lyder vurderingen.

»Den store udfordring vurderes at være størrelsen af den krævede investering samt adgang til ressourcer med forståelse af dansk sprog,« skriver Deloitte.

En større investering

Deloitte definerer en sprogressource som »struktureret lagring af datasæt, metoder, regelsæt mm. relateret til et givent sprog«. Det vil sige, at der ikke kun er tale om data med skrevet og talt dansk, men også grammatik, typiske stavefejl, dialekter og slang.

Illustration: Deloitte

De forskellige elementer understøtter forskellige use cases. For at lave talegenkendelse har man brug for annoterede lydfiler, mens generel sprogforståelse kræver et korpus af spørgsmål og svar for eksempel.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (4)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Ivan Skytte Jørgensen

Ifbm. udvikling af ordvariationer på dansk i Findx gravede jeg også efter sprogresourcer. De viste sig at dem er der ikke ret mange af i ordentlig kvalitet.

Jeg mener at det underliggende problem er at de resourcer som er blevet udviklet gennem årene kun lige akkurat er blevet finansieret, men der er ikke afsat penge til vedligehold og udgivelse. Så man havner let i den situation at en organisation har en fin sprogresourser, men er nødt til at kræve penge for adgang for at kunne finansiere udgivelse og vedligehold.

Et andet problem er at diverse tekstkorpusser med moderne dansk er underlagt ophavsret, fordi de indeholder bøger, noveller, avisartikler mm. De fleste korpusser er kun tilgængelige for universisteter, eller til ikke-kommercielt brug. Dvs. hvis man vil bruge en korpus til at bygge en grammatik-hjælp til en chat-app: det kan man ikke.

Sitationen i Sverige er bedre. Der har staten siden 1975 finansieret (i hvert fald delvist) Språkbanken på Göteborg Universitet. Situationen i Norge er lidt blandet. Man kan finde frit tilgængelige resourser på nynorsk, mens for bokmål er der ophavsretslige udfordringer med korpus.

Så jeg kan kun bifalde at man anbefaler udvikling af sprogresourcer til fri benyttelse.

  • 3
  • 0
Kaspar Lund

Wikipedia har vist vist sig at være en ganske god ressource til at udvikle basis sprogmodeller der så kan trænes videre til specifikke anvendelser på mindre datasæt. Derudover har EU også en del offentligt tilgængelig dokumenter med tilhørende oversættelser. Langt fra nok til at sikre at Danmark kan komme i verdensklasses inden for anvendelse af AI på tekster sprog; men i praksis et udemærket udgangspunkt for visse tekst opgaver.

  • 1
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize