Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Emner
  • Opret bruger
  • Log ind
Se kommentarer (1)
Emner Søgemaskiner, Serviceorienteret arkitektur (SOA), It-arkitektur

Dansk for maskiner på web 3.0

Af admin adminuser 14. april 2009 kl. 22:00

Jeg har i gennem de senest tre år deltaget i følgegruppen for DanNet-projektet (www.wordnet.dk). Et projekt som vil udgøre en væsentlig byggesten for maskinbar forståelse og fortolkning af dansk på næste generations internet (Web 3.0). Version 1.0.1 af Dannet er nu frigivet under Open Source licens.

På web 3.0 er information givet en veldefineret betydning, hvilket letter muligheden for at computere og mennesker kan arbejde sammen. Formålet med DanNet er at gøre det danske sprog 'forståeligt' for maskiner. Det gøres ved, at man opbygger en maskinlæsbar ontologi over det danske sprog.

Ontologien Ontologien indeholder ords betydningsstruktur og interne relationer er udtrykt i et formelt sprog (OWL-standarden) og derved gjort anvendelige for IT-systemer.

Til et begreb knyttes de sproglige udtryk, som kan udtrykke betydning af begrebet. De enkelte betydninger forbindes med hinanden ved at definere de semantiske relationer der hersker mellem dem, fx over- og underbegreber (kop ' tekop), del-helhed (fx hank ' kop) og funktionsrelationer (fx beholder ? indeholde). Gennem disse relationer etableres således et komplekst semantisk net, tilgængeligt for maskiner.

DanNet-basen indeholder nu 41.000 danske begreber relateret til hinanden

Gennem Dannet-basen kan en maskine 'forstå' at mennesker kan tænke og tale i modsætning til døde ting, og at kager og brød bages i modsætning til supper der koges. Viden om koncepter kan sammensættes dynamisk ved at konsultere Dannet. F.eks. kan maskiner udlede, at småkager er en slags kager og derfor også bages.

Næste generations internet kan sammenlignes med besøget på biblioteket Hvis man beder en bibliotekar om et kort over Sønderjylland, som det så ud på tidspunktet for kampene ved Dybbøl Mølle, vil man sandsynligvis få en bog, der indeholder et kort fra det tidspunkt.

En søgning på en søgemaskine vil inkludere mange resultater med tekst, der indeholder 'Kort over Sønderjylland' og 'Dybbøl Mølle' ? nogle indeholder måske ikke faktiske kort. Derudover vil formuleringer, som ikke matchede tidspunktet specificeret i søgningen, blive forbigået.

Tilsvarende vil søgninger efter netværks-sikkerhedsbegivenheder i Københavns-området ikke fange en anti-spam debat på Scandic Hotel i Lyngby, fordi relationen mellem netværkssikkerhed og anti-spam, og at Lyngby ligger tæt på København, ikke er fundamentale associationer på internettet.

Aktiviteterne inden for semantisk sammenhæng er målrettet mod at fylde hullerne inden for data-associationer og kollektiv forståelse.

På web 3.0 vil data associeret med kort være rigere (f.eks. vil en dato være tilføjet samt identificeret som en dato). Derved kan intelligente søgninger foretages ved brug af fleksible repræsentationer af datoer, som vil inkludere forskellige datarepræsentationer (April 1864; 1864 eller 1860'erne) såvel som associationer omkring koncepter (såsom 'Slaget ved Dybbøl', 'Dannevirke' og '1864-krigen?, som selv kan have datoer associeret).

På samme måde med anti-spam seminariet i Lyngby, vil konceptet omkring steder indeholde associationer, som placerer f.eks. byer inden for mere fleksible afgrænsede områder (København og omegn), ligesom begrebet anti-spam vil have en betydningsmæssig nærhed til netværks-sikkerhed.

Den manuelle søgefase af internettet Der er brugt enorme ressourcer på at gøre information tilgængelig for offentligheden, kunder og partnere, men problemet ved data på nettet er, at det er svært at bruge i stor skala, da der ikke er et globalt system til offentliggørelse af data på en sådan måde, at det let kan blive tilgået af andre. For at håndtere dette bjerg af information er der kommet nye forretningsmodeller som f.eks. søgemaskiner. Søgemaskinerne udfører simple lingvistiske analyser baseret på fritekst-søgninger på indholdet af siden og begrænsede nøgleord, og de producerer lister af resultatet, som kræver, at den menneskelige bruger skal lave den intelligente slutning af, hvilke af dataene der er relevante, troværdige og tidssvarende.

Med den eksisterende teknologi er vi stadig i den manuelle søgefase af internettet

At tilføje semantik vil være en ændring af internettets natur fra at være et sted, hvor information primært er fremvist, til at være et sted, hvor den er fortolket, udvekslet og behandlet Dannet er fundamentet Dannet vil udgøre fundamentet for at dansk kan bruges, fortolkes og 'forstås' på web 3.0. Det vil blive brugt af søgemaskiner til at give mere kvalificerede resultater på baggrund af indholdet i danske dokumenter

Internettet vil opnå dets fulde potentiale, når det bliver et sted, hvor data kan blive delt og behandlet af både automatiserede værktøjer såvel som af mennesker.

Dannet er ledet af seniorforsker Bolette Sandford Pedersen, Center for Sprogteknologi, Københavns Universitet i samarbejde med kolleger fra Det Danske Sprog- og Litteraturselskab.

Send Tweet
Udskriv
Om admin adminuserFollow @version2

Kommentarer (1)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Morten Høybye Frederiksen 14. apr. 2009 - 22.23
 
Dejligt!

Herligt, tak for det til dig og jer for indsatsen.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Derfor fik Bo og Frederik på 14 skældud for at finde sikkerhedshul

Udgivet 3. feb 16.01Opdateret 3. feb 16.13

NASA-hacker arresteret i Rumænien

Udgivet 3. feb 15.20Opdateret 3. feb 16.27

Enhedslisten: Nødvendigt med ny it-strategi, hvis skandaler skal undgås

Udgivet 3. feb 14.30Opdateret 3. feb 14.30

Ekspert om it-skandaler: Staten redder næsten aldrig sine penge

Udgivet 3. feb 14.14Opdateret 3. feb 14.20

Venstre vil stille CSC til ansvar: Overvejer erstatningssag

Udgivet 3. feb 14.04Opdateret 3. feb 14.04
Flere it-nyheder »
Få it-nyheder og blogs hver dag med Version2's nyhedsbrev.

Seneste debat

  1. Enhedslisten: Nødvendigt med ny it-strategi, hvis skandaler skal undgås

    7 comments.
    Last update 2 timer 11 minutter
    Skrevet af Lars Tørnes Hansen
  2. Politiet dropper skandalesystemet Polsag

    52 comments.
    Last update 3 timer 8 minutter
    Skrevet af Jesper Frimann
  3. Ekspert om it-skandaler: Staten redder næsten aldrig sine penge

    8 comments.
    Last update 4 timer 15 minutter
    Skrevet af Peter Stricker
  4. Mød fremtidens it-talenter: To 14-årige udvikler software til kommunen

    21 comments.
    Last update 4 timer 45 minutter
    Skrevet af Frederik Lassen
  5. Den dag fik jeg geografi-lektion i Schweiz

    4 comments.
    Last update 5 timer 12 minutter
    Skrevet af Christian Nobel
  6. Rigspolitichef efter skrotning af Polsag: »Vi tror ikke på projektet«

    9 comments.
    Last update 5 timer 16 minutter
    Skrevet af Christian Nobel
  7. It-ordfører (S): Ikke alle Polsag-millionerne er spildt

    6 comments.
    Last update 5 timer 51 minutter
    Skrevet af Keld Simonsen
  8. Her er CSC's it-skandaler

    14 comments.
    Last update 6 timer 7 minutter
    Skrevet af Bjorn Thrane
Mere debat »

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Android
  • Bruttolønsordning
  • Business Intelligence
  • Cloud computing
  • Digitaliseringsstyrelsen
  • HTML5
  • Harddisk-priser
  • IE9
  • Intranet
  • It-sikkerhed
  • Kindle Fire
  • Multimedieskat
  • NemID
  • OS X Lion
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu 11.10
  • Virtualisering
  • Windows 8
  • Windows Phone 7
  • iOS 5
  • iPhone 4S

Tjenester

  • Android-app
  • iPhone-app
  • RSS-feeds
Følg @version2dk
Få it-nyheder og blogs hver dag med Version2's nyhedsbrev.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Skelbækgade 4 1717 København V
  • Tlf. work 33265300