Dansk sprog-algoritme revolutionerer maskinoversættelse

Fyldord indsat i faste udtryk er gift for maskinoversættere som Google Translate. Men en ny, danskudviklet metode gør det muligt at oversætte dem rigtigt.

En oversættelse, hvor hvert ord blot bliver oversat hver for sig, er ikke til meget hjælp - udover et billigt grin. Så Google Translate og andre oversættelses-tjenester har travlt med at lære motoren bag at tænke i fulde fraser.

Med en tilpas stor mængde data at gå ud fra, kan det faktisk fungere meget godt, isoleret set. Men så snart der kommer småord som 'nu' eller 'ikke' ind imellem ordene i de faste udtryk, går det galt.

Det problem kan en danskudviklet algoritme nu løse, så kvaliteten af automatiske oversættelser kan få et markant løft, skriver Politiken.

28-årige Anders Søgaard, adjunkt på Københavns Universitet, har stået i spidsen for forskningen, der har udmøntet sig i programmet Phrasal, som forskere på Stanford University har udviklet.

I dag forstår Google udtrykket 'slå til lyd for', gennem analyse af enorme mængder sproglige data. Oversættelsen til engelsk bliver til 'advocate'. Men indgår udtrykket i sætningen 'Poul slår nu til lyd for', er Google magtesløs uden den analytiske kraft, som Anders Søgaard står bag. Forbedringerne forventes at finde vej til Googles oversættermaskine inden udgangen af året.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (16)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Torben Mogensen Blogger

Umiddelbart vil eksemplet kunne håndteres ved at permutere rækkefølgen af ord en smule inden oversættelse:

"Poul slår nu til lyd for" --> "Poul nu slår til lyd for" --> "Poul now advocates".

Man skal dog passe på med, hvor meget man permuterer, da rækkefølgen kan være meningsbærende.

  • 0
  • 0
#3 Torben Mogensen Blogger

Hvordan vil du vurdere om en permutation er menings-identisk med en anden?

Der må bruges en heuristik. F.eks. vil jeg tro, at tidsangivelser kan rykkes ret frit rundt, og at det er de færreste enkeltnaboombytninger, der ændrer betydningen.

  • 0
  • 0
#6 Flemming Hansen

Det kommer jo an på så meget. Nogle gange bruges komma til en indskudt sætning, hvor man vil sige noget ekstra, og så vil flytning af komma ikke ændre mening, men højst resultere i vrøvl hvis man ikke kan abstrahere fra kommaet.

Andre gange kommer der overflødige ,'er ind i sætninger så man reelt skal ignorere det.

Jeg tror stadig der er et stykke vej endnu før en computer fatter ..,- sådan tegnes Nikolaj.

  • 0
  • 0
#7 Anders Thorseth

Oversættelse er vel en slags Turing-test. Når en maskinoversættelse ikke længere kan skelnes fra en menneskeoversættelse må man vel konkludere at maskinen "forstår" teksten. Når man ser på hvor langt man er nået med Turing-tests rundt omkring er der nok langt igen på trods af denne "revolution".

  • 0
  • 0
#9 Lars Kr. Lundin

OK - en sætning:

"Hvem skød Lee Harvey Oswald?"

Hvad er oversættelsen? Tænk nu over hvad svaret er.

Der er vel ikke noget mærkeligt i at en flertydig sætning er vanskelig at oversætte på en måde så flertydigheden bevares.

Mere relevante eksempler må være noget som menneskelige oversættere nemt kan klare, uden at det nemt kan maskinoversættes.

  • 0
  • 0
#10 Andreas Kirkedal

Der findes flere muligheder for at permutere sætningen, f.eks. "Now, Poul advocates...", hvilket ikke vil være meningsændrende i alment sprog. Når det kommer til tidsadverbialer kan der være utrolig mange placeringsmuligheder i alment sprog.

Man støder dog ind i mange problemer i sidste ende når man oversætter domænespecifikt sprog - prøv bare at spørge en jurist eller en translatør om hvor vigtig placeringen af tidsadverbialer er f.eks. i kontrakter.

Er der nogen links til forskningen?

  • 0
  • 0
#14 Peter Lind

Der må bruges en heuristik. F.eks. vil jeg tro, at tidsangivelser kan rykkes ret frit rundt, og at det er de færreste enkeltnaboombytninger, der ændrer betydningen.

Spørgsmålet vel hvordan man lærer en maskine det.

"Poul slår nu til lyd for" --> "Poul nu slår til lyd for"

"Poul nu slår til lyd for" er forkert sætningsopbygning (givet at det er hele sætningen) og du vil ret sikkert ikke kunne finde mange eksempler på det - man skriver simpelthen ikke sådan på dansk. Du kan skrive "det er det Poul nu slår til lyd for" men det er en noget anden sætning. Hvordan lærer en maskine hvorvidt mulige permutationer er menings-identiske? Det synes umiddelbart at indebære temmelig meget AI ... det er jo ikke nok at permutere løs og så tjekke efter om permutationerne findes "in the wild", da det intet siger om hvorvidt meningen bevares.

  • 0
  • 0
#15 Andreas Kirkedal

Det er muligt at lave en model af det danske sprog, der tildeler en sandsynlighed til rækkefølger af ord. Det vigtige i disse modeller er, hvor meget data man har at træne modellen med. En god model af europæiske sprog vil bruge fraser op til 5 ord, som den trænes på og det vil tildele små sandsynligheder til fraser, der ikke er set i træningsdata. På den måde kan man udelukke mange forkerte permutationer, men det vil også fjerne korrekte permutationer der ikke var i træningsdata.

  • 0
  • 0
#16 Torben Mogensen Blogger

Spørgsmålet vel hvordan man lærer en maskine det.

"Poul slår nu til lyd for" --> "Poul nu slår til lyd for"

"Poul nu slår til lyd for" er forkert sætningsopbygning (givet at det er hele sætningen) og du vil ret sikkert ikke kunne finde mange eksempler på det - man skriver simpelthen ikke sådan på dansk.

Nej, men det er i denne sammenhæng ikke vigtigt. Man bruger kun ombytning, når en sætning ikke kan deles op i et lille antal fraser, der findes i korpus. Hvis man med få ombytninger kan nedsætte antallet af fraser, får man (sandsynligvis) en bedre kvalitet af oversættelsen. Det betyder ikke i den forbindelse noget, om hele sætningen er gyldigt dansk -- den bliver alligevel oversat i bidder.

Og, jo, der er selvfølgelig en risiko for fejloversættelse, men det er der alligevel -- også selv om man sætter mennesker til at oversætte. Se f.eks. rædselskabinettet på http://www.titlevision.dk/boeuf.htm .

  • 0
  • 0
Log ind eller Opret konto for at kommentere