Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Se kommentarer (1)
Emner Søgemaskiner, Serviceorienteret arkitektur (SOA), It-arkitektur

Dansk for maskiner på web 3.0

Af admin adminuser 14. april 2009 kl. 22:00

Jeg har i gennem de senest tre år deltaget i følgegruppen for DanNet-projektet (www.wordnet.dk). Et projekt som vil udgøre en væsentlig byggesten for maskinbar forståelse og fortolkning af dansk på næste generations internet (Web 3.0). Version 1.0.1 af Dannet er nu frigivet under Open Source licens.

På web 3.0 er information givet en veldefineret betydning, hvilket letter muligheden for at computere og mennesker kan arbejde sammen. Formålet med DanNet er at gøre det danske sprog 'forståeligt' for maskiner. Det gøres ved, at man opbygger en maskinlæsbar ontologi over det danske sprog.

Ontologien Ontologien indeholder ords betydningsstruktur og interne relationer er udtrykt i et formelt sprog (OWL-standarden) og derved gjort anvendelige for IT-systemer.

Til et begreb knyttes de sproglige udtryk, som kan udtrykke betydning af begrebet. De enkelte betydninger forbindes med hinanden ved at definere de semantiske relationer der hersker mellem dem, fx over- og underbegreber (kop ' tekop), del-helhed (fx hank ' kop) og funktionsrelationer (fx beholder ? indeholde). Gennem disse relationer etableres således et komplekst semantisk net, tilgængeligt for maskiner.

DanNet-basen indeholder nu 41.000 danske begreber relateret til hinanden

Gennem Dannet-basen kan en maskine 'forstå' at mennesker kan tænke og tale i modsætning til døde ting, og at kager og brød bages i modsætning til supper der koges. Viden om koncepter kan sammensættes dynamisk ved at konsultere Dannet. F.eks. kan maskiner udlede, at småkager er en slags kager og derfor også bages.

Næste generations internet kan sammenlignes med besøget på biblioteket Hvis man beder en bibliotekar om et kort over Sønderjylland, som det så ud på tidspunktet for kampene ved Dybbøl Mølle, vil man sandsynligvis få en bog, der indeholder et kort fra det tidspunkt.

En søgning på en søgemaskine vil inkludere mange resultater med tekst, der indeholder 'Kort over Sønderjylland' og 'Dybbøl Mølle' ? nogle indeholder måske ikke faktiske kort. Derudover vil formuleringer, som ikke matchede tidspunktet specificeret i søgningen, blive forbigået.

Tilsvarende vil søgninger efter netværks-sikkerhedsbegivenheder i Københavns-området ikke fange en anti-spam debat på Scandic Hotel i Lyngby, fordi relationen mellem netværkssikkerhed og anti-spam, og at Lyngby ligger tæt på København, ikke er fundamentale associationer på internettet.

Aktiviteterne inden for semantisk sammenhæng er målrettet mod at fylde hullerne inden for data-associationer og kollektiv forståelse.

På web 3.0 vil data associeret med kort være rigere (f.eks. vil en dato være tilføjet samt identificeret som en dato). Derved kan intelligente søgninger foretages ved brug af fleksible repræsentationer af datoer, som vil inkludere forskellige datarepræsentationer (April 1864; 1864 eller 1860'erne) såvel som associationer omkring koncepter (såsom 'Slaget ved Dybbøl', 'Dannevirke' og '1864-krigen?, som selv kan have datoer associeret).

På samme måde med anti-spam seminariet i Lyngby, vil konceptet omkring steder indeholde associationer, som placerer f.eks. byer inden for mere fleksible afgrænsede områder (København og omegn), ligesom begrebet anti-spam vil have en betydningsmæssig nærhed til netværks-sikkerhed.

Den manuelle søgefase af internettet Der er brugt enorme ressourcer på at gøre information tilgængelig for offentligheden, kunder og partnere, men problemet ved data på nettet er, at det er svært at bruge i stor skala, da der ikke er et globalt system til offentliggørelse af data på en sådan måde, at det let kan blive tilgået af andre.

For at håndtere dette bjerg af information er der kommet nye forretningsmodeller som f.eks. søgemaskiner.

Søgemaskinerne udfører simple lingvistiske analyser baseret på fritekst-søgninger på indholdet af siden og begrænsede nøgleord, og de producerer lister af resultatet, som kræver, at den menneskelige bruger skal lave den intelligente slutning af, hvilke af dataene der er relevante, troværdige og tidssvarende.

Med den eksisterende teknologi er vi stadig i den manuelle søgefase af internettet

At tilføje semantik vil være en ændring af internettets natur fra at være et sted, hvor information primært er fremvist, til at være et sted, hvor den er fortolket, udvekslet og behandlet

Dannet er fundamentet Dannet vil udgøre fundamentet for at dansk kan bruges, fortolkes og 'forstås' på web 3.0. Det vil blive brugt af søgemaskiner til at give mere kvalificerede resultater på baggrund af indholdet i danske dokumenter

Internettet vil opnå dets fulde potentiale, når det bliver et sted, hvor data kan blive delt og behandlet af både automatiserede værktøjer såvel som af mennesker.

Dannet er ledet af seniorforsker Bolette Sandford Pedersen, Center for Sprogteknologi, Københavns Universitet i samarbejde med kolleger fra Det Danske Sprog- og Litteraturselskab.

Send Tweet
Udskriv
Om admin adminuserFollow @version2

Kommentarer (1)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Morten Høybye Frederiksen 14. apr. 2009 - 22.23
 
Dejligt!

Herligt, tak for det til dig og jer for indsatsen.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Netgroup efter kæmpe-nedbrud: Kunderne vidste godt, der ikke var fuld redundans

Udgivet 16. maj 16.24Opdateret 16. maj 16.32

Justitsminister vil ikke afvise NemID som spionværktøj for politiet

Udgivet 16. maj 16.00Opdateret 16. maj 16.00

Microsoft risikerer nyt browser-slagsmål med EU over Windows 8

Udgivet 16. maj 15.21Opdateret 16. maj 15.23

Så splittet er Android: 3.997 forskellige enheder

Udgivet 16. maj 14.44Opdateret 16. maj 14.48

Her er 5 undskyldninger for at droppe Digital Post

Udgivet 16. maj 14.03Opdateret 16. maj 14.31

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Seneste debat

  1. Sociale medier ved en skillevej

    7 comments.
    Last update 1 time 8 minutter
    Skrevet af Jimmy Frydkær Dürr
  2. Raspberry Pi - den booter ... oftest :-)

    12 comments.
    Last update 1 time 30 minutter
    Skrevet af Lars Tørnes Hansen
  3. Justitsminister vil ikke afvise NemID som spionværktøj for politiet

    15 comments.
    Last update 3 timer 53 minutter
    Skrevet af Peter Jespersen
  4. Her er 5 undskyldninger for at droppe Digital Post

    11 comments.
    Last update 6 timer 28 minutter
    Skrevet af Jacob Larsen
  5. Hardware-mangel i skoleklasserne: 2 pc'er 3 gange om ugen er for lidt

    13 comments.
    Last update 6 timer 36 minutter
    Skrevet af Christian Wang
  6. Netgroup efter kæmpe-nedbrud: Kunderne vidste godt, der ikke var fuld redundans

    18 comments.
    Last update 7 timer 16 minutter
    Skrevet af Peter Larsen
  7. Så splittet er Android: 3.997 forskellige enheder

    15 comments.
    Last update 7 timer 20 minutter
    Skrevet af Marcin Brodzikowski
  8. TDC køber 7.500 kunder fra konkursramte Skyline

    4 comments.
    Last update 10 timer 3 minutter
    Skrevet af Ken Poulsen

Mere debat »

It-virksomheder

Interface
|
Rehfeld
|
Edora
|
Software Innovation
|
Black Box
|
4C Management Consulting
|
Stay Secure Denmark
|
Agema
|
GlobalConnect
|
Halibut
|
Delegate
|
Queue-IT
 

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Android
  • Bruttolønsordning
  • Business Intelligence
  • Cloud computing
  • Download Windows 8
  • HTML5
  • Harddisk-priser
  • IE9
  • Intranet
  • It-sikkerhed
  • Kindle Fire
  • Multimedieskat
  • NemID
  • OS X Mountain Lion
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu 11.10
  • Virtualisering
  • Windows 8
  • Windows Phone 7
  • iOS 5
  • iPhone 4S

Tjenester

  • Android-app
  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Skelbækgade 4 1717 København V
  • Tlf. work 33265300