Tekstdata fra DR og Infomedia skal være med til at udvikle danske NLP-teknologier

Illustration: DaNLP
Alexandra Instituttet har brug for masser af dansk tekst til udvikling af dansk sprogteknologi. Det sikrer nyt samarbejde.

Dansk data er afgørende for at udvikle sprogteknologier, der fungerer lige så godt på dansk, som på de gør på engelsk. Og som flere efterhånden har slået fast, er det ikke en indsats, vi skal regne med bliver løst af tech-giganterne, der driver udviklingen inden for Natural Language Processing (NLP) og Understanding.

Derfor har Alexandra Instituttet nu lavet en aftale med DR og Infomedia, der skal give eksperter tilstrækkelig med dansksproget tekst til at forbedre og udvikle danske sprogteknologier.

»Hvis man skal udvikle machine learning på tekst, så er det vigtigt at have store mængder tekstdata. Til at starte med har vi trænet vores modeller på dansk Wikipedia, men det er simpelthen ikke nok, fordi dansk Wikipedia stadig er meget lille i forhold til engelsk. Det handler simpelthen om at få volumen på og træne på meget data,« forklarer Anne Bøgh Fangel, der er projektleder ved Alexandra Instituttet.

Bevæger man sig uden for Wikipedias digitale grænser, løber man hurtigt ind i barrierer med ophavsret, fortæller hun.

»Hvis man går efter at samle tekstdata ved udelukkende at scrape noget på nettet, så kan man nemt komme på kant med lovgivningen, for det er reelt andres data. Derfor er det afgørende, at vi kan lave det her samarbejde.«

Dette er en forkortet version af en artikel, der oprindeligt er bragt på DataTech. I den oprindelige artikel kan du blandt andet læse, hvordan Alexandra Instituttets NLP-arbejde er en del af det større projekt Dansk for Alle, der er finansieret af Forsknings- og Uddannelsesministeriet og har til formål at udvikle et open source repository på GitHub – navngivet DaNLP – med komponenter, datasæt og modeller, som alle kan hente, bruge og bidrage til.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere