Udviklingen af en dansk sprogressource er essentiel, når det gælder danske myndigheders og virksomheders mulighed for at bruge AI-teknologi.
Det vurderer Deloitte i en forundersøgelsesrapport, som selskabet har lavet for Digitaliseringsstyrelsen, og som DataTech har fået aktindsigt i.
Regeringen præsenterede i oktober ambitionen om at bringe ‘dansk sprogteknologi i verdensklasse’ ved at opbygge »en sprogressource på dansk, der sættes til fri afbenyttelse, så leverandørerne har en fælles sprogressource af høj kvalitet, der giver dem mulighed for at udvikle gode løsninger inden for talegenkendelse og sprogforståelse med et højt præcisionsniveau«.
Forud for den udmelding har Digitaliseringsstyrelsen altså bedt Deloitte om en kortlægning af behovet og de mulige løsninger. Af rapporten fremgår det blandt andet, at man ikke kan satse på, at markedskræfterne løser problemet, hvis blot der er nok, som efterspørger ressourcen.
»Det er vurderingen, at aktørerne i markedet (leverandører, myndigheder og virksomheder) ikke er i stand til at selv at løse udfordringen med sprogteknologi på dansk,« skriver Deloitte i rapporten.
De mindre samarbejder, der trods alt eksisterer, er for snævre til at gøre en bredere forskel – de er »til gavn for de involverede, ikke for alle«, lyder vurderingen.
»Den store udfordring vurderes at være størrelsen af den krævede investering samt adgang til ressourcer med forståelse af dansk sprog,« skriver Deloitte.
En større investering
Deloitte definerer en sprogressource som »struktureret lagring af datasæt, metoder, regelsæt mm. relateret til et givent sprog«. Det vil sige, at der ikke kun er tale om data med skrevet og talt dansk, men også grammatik, typiske stavefejl, dialekter og slang.

De forskellige elementer understøtter forskellige use cases. For at lave talegenkendelse har man brug for annoterede lydfiler, mens generel sprogforståelse kræver et korpus af spørgsmål og svar for eksempel.