Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Se kommentarer (1)
Emner Søgemaskiner, Serviceorienteret arkitektur (SOA), It-arkitektur

Dansk for maskiner på web 3.0

Af admin adminuser 14. april 2009 kl. 22:00

Jeg har i gennem de senest tre år deltaget i følgegruppen for DanNet-projektet (www.wordnet.dk). Et projekt som vil udgøre en væsentlig byggesten for maskinbar forståelse og fortolkning af dansk på næste generations internet (Web 3.0). Version 1.0.1 af Dannet er nu frigivet under Open Source licens.

På web 3.0 er information givet en veldefineret betydning, hvilket letter muligheden for at computere og mennesker kan arbejde sammen. Formålet med DanNet er at gøre det danske sprog 'forståeligt' for maskiner. Det gøres ved, at man opbygger en maskinlæsbar ontologi over det danske sprog.

Ontologien Ontologien indeholder ords betydningsstruktur og interne relationer er udtrykt i et formelt sprog (OWL-standarden) og derved gjort anvendelige for IT-systemer.

Til et begreb knyttes de sproglige udtryk, som kan udtrykke betydning af begrebet. De enkelte betydninger forbindes med hinanden ved at definere de semantiske relationer der hersker mellem dem, fx over- og underbegreber (kop ' tekop), del-helhed (fx hank ' kop) og funktionsrelationer (fx beholder ? indeholde). Gennem disse relationer etableres således et komplekst semantisk net, tilgængeligt for maskiner.

DanNet-basen indeholder nu 41.000 danske begreber relateret til hinanden

Gennem Dannet-basen kan en maskine 'forstå' at mennesker kan tænke og tale i modsætning til døde ting, og at kager og brød bages i modsætning til supper der koges. Viden om koncepter kan sammensættes dynamisk ved at konsultere Dannet. F.eks. kan maskiner udlede, at småkager er en slags kager og derfor også bages.

Næste generations internet kan sammenlignes med besøget på biblioteket Hvis man beder en bibliotekar om et kort over Sønderjylland, som det så ud på tidspunktet for kampene ved Dybbøl Mølle, vil man sandsynligvis få en bog, der indeholder et kort fra det tidspunkt.

En søgning på en søgemaskine vil inkludere mange resultater med tekst, der indeholder 'Kort over Sønderjylland' og 'Dybbøl Mølle' ? nogle indeholder måske ikke faktiske kort. Derudover vil formuleringer, som ikke matchede tidspunktet specificeret i søgningen, blive forbigået.

Tilsvarende vil søgninger efter netværks-sikkerhedsbegivenheder i Københavns-området ikke fange en anti-spam debat på Scandic Hotel i Lyngby, fordi relationen mellem netværkssikkerhed og anti-spam, og at Lyngby ligger tæt på København, ikke er fundamentale associationer på internettet.

Aktiviteterne inden for semantisk sammenhæng er målrettet mod at fylde hullerne inden for data-associationer og kollektiv forståelse.

På web 3.0 vil data associeret med kort være rigere (f.eks. vil en dato være tilføjet samt identificeret som en dato). Derved kan intelligente søgninger foretages ved brug af fleksible repræsentationer af datoer, som vil inkludere forskellige datarepræsentationer (April 1864; 1864 eller 1860'erne) såvel som associationer omkring koncepter (såsom 'Slaget ved Dybbøl', 'Dannevirke' og '1864-krigen?, som selv kan have datoer associeret).

På samme måde med anti-spam seminariet i Lyngby, vil konceptet omkring steder indeholde associationer, som placerer f.eks. byer inden for mere fleksible afgrænsede områder (København og omegn), ligesom begrebet anti-spam vil have en betydningsmæssig nærhed til netværks-sikkerhed.

Den manuelle søgefase af internettet Der er brugt enorme ressourcer på at gøre information tilgængelig for offentligheden, kunder og partnere, men problemet ved data på nettet er, at det er svært at bruge i stor skala, da der ikke er et globalt system til offentliggørelse af data på en sådan måde, at det let kan blive tilgået af andre.

For at håndtere dette bjerg af information er der kommet nye forretningsmodeller som f.eks. søgemaskiner.

Søgemaskinerne udfører simple lingvistiske analyser baseret på fritekst-søgninger på indholdet af siden og begrænsede nøgleord, og de producerer lister af resultatet, som kræver, at den menneskelige bruger skal lave den intelligente slutning af, hvilke af dataene der er relevante, troværdige og tidssvarende.

Med den eksisterende teknologi er vi stadig i den manuelle søgefase af internettet

At tilføje semantik vil være en ændring af internettets natur fra at være et sted, hvor information primært er fremvist, til at være et sted, hvor den er fortolket, udvekslet og behandlet

Dannet er fundamentet Dannet vil udgøre fundamentet for at dansk kan bruges, fortolkes og 'forstås' på web 3.0. Det vil blive brugt af søgemaskiner til at give mere kvalificerede resultater på baggrund af indholdet i danske dokumenter

Internettet vil opnå dets fulde potentiale, når det bliver et sted, hvor data kan blive delt og behandlet af både automatiserede værktøjer såvel som af mennesker.

Dannet er ledet af seniorforsker Bolette Sandford Pedersen, Center for Sprogteknologi, Københavns Universitet i samarbejde med kolleger fra Det Danske Sprog- og Litteraturselskab.

Send Tweet
Udskriv
Om admin adminuserFollow @version2

Kommentarer (1)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Morten Høybye Frederiksen 14. apr. 2009 - 22.23
 
Dejligt!

Herligt, tak for det til dig og jer for indsatsen.

  • Stem op 0
  • Stem ned 0
  • anmeld
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Ethernet fylder 40: Fra datacenter til F16-fly

Udgivet 24. maj 15.55Opdateret 24. maj 15.55

Rygte: 48 millioner Xbox Live-konti hacket

Udgivet 24. maj 14.40Opdateret 24. maj 14.40

Shopamok: 41 domæner fra konkursbo sat til salg for 500 kroner

Udgivet 24. maj 14.08Opdateret 24. maj 14.08

300.000 cloud-servere giver ny Xbox supermuskler

Udgivet 24. maj 11.31Opdateret 24. maj 11.31

Yousee: Vi ville ikke skræmme kunderne

Udgivet 24. maj 10.44Opdateret 24. maj 11.32

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Seneste debat

  1. 300.000 cloud-servere giver ny Xbox supermuskler

    6 comments.
    Last update 14 minutter 2 sekunder
    Skrevet af Søren Mejlhede
  2. Haves: Skod ADSL linje. Ønskes: Virtuel server

    90 comments.
    Last update 22 minutter 27 sekunder
    Skrevet af Johnny Olesen
  3. Danske cyberspioner vil hjælpe med ny NemID-løsning - men afviser bagdør

    14 comments.
    Last update 34 minutter 33 sekunder
    Skrevet af Finn Christensen
  4. Chefredaktør om hullet betalingsmur: »Vi er fuldstændigt klar over, at det kan omgås«

    14 comments.
    Last update 1 time 23 minutter
    Skrevet af Chris Juneau
  5. Yousee: Vi ville ikke skræmme kunderne

    7 comments.
    Last update 1 time 48 minutter
    Skrevet af Chris Juneau
  6. Folkefest for spareivrige: Shopamok med dankortet bliver op til 50 øre billigere

    2 comments.
    Last update 2 timer 30 minutter
    Skrevet af Nikolaj Reibke
  7. Ethernet fylder 40: Fra datacenter til F16-fly

    1 comment.
    Last update 3 timer 28 minutter
    Skrevet af Brian Hansen
  8. Shopamok: 41 domæner fra konkursbo sat til salg for 500 kroner

    10 comments.
    Last update 4 timer 18 minutter
    Skrevet af Flemming Sørensen

Mere debat »

It-virksomheder

Lakeside
|
Pixelmade
|
CapaSystems
|
E-Optimator
|
Devteam Danmark
|
H. Brandt Consulting
|
Eksponent
|
Clockwork Consulting ApS
|
Viggonet
|
Visma Sirius A/S
|
Innologic A/S
|
REALTECH NORDIC ApS
 

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Cookie- & privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Business Intelligence
  • Cloud computing
  • Intranet
  • It-sikkerhed
  • NemID
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu
  • Virtualisering
  • Windows 8
  • Windows Server 2012
  • iOS 6
  • iPhone 5

Tjenester

  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Trekronergade 26 2500 Valby
  • Tlf. work 33265300