Dansk for maskiner på web 3.0

Jeg har i gennem de senest tre år deltaget i følgegruppen for DanNet-projektet (www.wordnet.dk). Et projekt som vil udgøre en væsentlig byggesten for maskinbar forståelse og fortolkning af dansk på næste generations internet (Web 3.0). Version 1.0.1 af Dannet er nu frigivet under Open Source licens.

På web 3.0 er information givet en veldefineret betydning, hvilket letter muligheden for at computere og mennesker kan arbejde sammen. Formålet med DanNet er at gøre det danske sprog 'forståeligt' for maskiner. Det gøres ved, at man opbygger en maskinlæsbar ontologi over det danske sprog.

Ontologien Ontologien indeholder ords betydningsstruktur og interne relationer er udtrykt i et formelt sprog (OWL-standarden) og derved gjort anvendelige for IT-systemer.

Til et begreb knyttes de sproglige udtryk, som kan udtrykke betydning af begrebet. De enkelte betydninger forbindes med hinanden ved at definere de semantiske relationer der hersker mellem dem, fx over- og underbegreber (kop ' tekop), del-helhed (fx hank ' kop) og funktionsrelationer (fx beholder ? indeholde). Gennem disse relationer etableres således et komplekst semantisk net, tilgængeligt for maskiner.

DanNet-basen indeholder nu 41.000 danske begreber relateret til hinanden

Gennem Dannet-basen kan en maskine 'forstå' at mennesker kan tænke og tale i modsætning til døde ting, og at kager og brød bages i modsætning til supper der koges. Viden om koncepter kan sammensættes dynamisk ved at konsultere Dannet. F.eks. kan maskiner udlede, at småkager er en slags kager og derfor også bages.

Næste generations internet kan sammenlignes med besøget på biblioteket Hvis man beder en bibliotekar om et kort over Sønderjylland, som det så ud på tidspunktet for kampene ved Dybbøl Mølle, vil man sandsynligvis få en bog, der indeholder et kort fra det tidspunkt.

En søgning på en søgemaskine vil inkludere mange resultater med tekst, der indeholder 'Kort over Sønderjylland' og 'Dybbøl Mølle' ? nogle indeholder måske ikke faktiske kort. Derudover vil formuleringer, som ikke matchede tidspunktet specificeret i søgningen, blive forbigået.

Tilsvarende vil søgninger efter netværks-sikkerhedsbegivenheder i Københavns-området ikke fange en anti-spam debat på Scandic Hotel i Lyngby, fordi relationen mellem netværkssikkerhed og anti-spam, og at Lyngby ligger tæt på København, ikke er fundamentale associationer på internettet.

Aktiviteterne inden for semantisk sammenhæng er målrettet mod at fylde hullerne inden for data-associationer og kollektiv forståelse.

På web 3.0 vil data associeret med kort være rigere (f.eks. vil en dato være tilføjet samt identificeret som en dato). Derved kan intelligente søgninger foretages ved brug af fleksible repræsentationer af datoer, som vil inkludere forskellige datarepræsentationer (April 1864; 1864 eller 1860'erne) såvel som associationer omkring koncepter (såsom 'Slaget ved Dybbøl', 'Dannevirke' og '1864-krigen?, som selv kan have datoer associeret).

På samme måde med anti-spam seminariet i Lyngby, vil konceptet omkring steder indeholde associationer, som placerer f.eks. byer inden for mere fleksible afgrænsede områder (København og omegn), ligesom begrebet anti-spam vil have en betydningsmæssig nærhed til netværks-sikkerhed.

Den manuelle søgefase af internettet Der er brugt enorme ressourcer på at gøre information tilgængelig for offentligheden, kunder og partnere, men problemet ved data på nettet er, at det er svært at bruge i stor skala, da der ikke er et globalt system til offentliggørelse af data på en sådan måde, at det let kan blive tilgået af andre.

For at håndtere dette bjerg af information er der kommet nye forretningsmodeller som f.eks. søgemaskiner.

Søgemaskinerne udfører simple lingvistiske analyser baseret på fritekst-søgninger på indholdet af siden og begrænsede nøgleord, og de producerer lister af resultatet, som kræver, at den menneskelige bruger skal lave den intelligente slutning af, hvilke af dataene der er relevante, troværdige og tidssvarende.

Med den eksisterende teknologi er vi stadig i den manuelle søgefase af internettet

At tilføje semantik vil være en ændring af internettets natur fra at være et sted, hvor information primært er fremvist, til at være et sted, hvor den er fortolket, udvekslet og behandlet

Dannet er fundamentet Dannet vil udgøre fundamentet for at dansk kan bruges, fortolkes og 'forstås' på web 3.0. Det vil blive brugt af søgemaskiner til at give mere kvalificerede resultater på baggrund af indholdet i danske dokumenter

Internettet vil opnå dets fulde potentiale, når det bliver et sted, hvor data kan blive delt og behandlet af både automatiserede værktøjer såvel som af mennesker.

Dannet er ledet af seniorforsker Bolette Sandford Pedersen, Center for Sprogteknologi, Københavns Universitet i samarbejde med kolleger fra Det Danske Sprog- og Litteraturselskab.

admin adminusers billede

Kommentarer (1)

Log ind eller opret en konto for at skrive kommentarer