Svenske forskere vil give Google Translate baghjul med præcision
Google Translate og Babelfish er ikke godt nok til EU. Derfor lægger unionen 17 millioner kroner i nyt projekt, som skal give præcise oversættelser af for eksempel patenter med open source-software.
Af
Tania Andersen,
fredag 05. feb 2010 kl. 11:06
EMNER:
Open source
Et konsortium ledet af Gøteborgs universitet skal med 17 millioner EU-kroner udvikle mere præcis maskinoversættelse.
Molto Project (Multi-lingual Online Translation) fokuserer i modsætning til f.eks. Google Translate på præcision i oversættelsen ved at benytte grammatiske regler. Det skriver EU-nyhedstjenesten Cordis.
Målgruppen for projektets software er firmaer og institutioner frem for private brugere. Udviklerne benytter domænespecifikke grammatikker, som implementeres med open source-platformen Grammatical Framework.
»Indtil nu har det været umuligt at skabe et oversættelsesværktøj, der dækker hele sprog,« siger professor Aarne Ranta fra Gøteborgs universitets datalogiske afdeling til Cordis.
»Vi vil arbejde på en oversættelsesteknik, der er så præcis, at folk, der producerer tekster, kan benytte vores oversættelser direkte. Vi er nu begyndt på at gå fra præcision til øget dækning, hvilket vil sige, at vi har tilføjet flere sprog til værktøjet og vores database,« tilføjer professoren.
Oversættelse af patenter og matematiske undervisningsmaterialer er blandt de anvendelser, som Molto Project har i kikkerten.
Udover Gøteborgs universitet består Molto Project af deltagere fra Helsinkis universitet, Kataloniens polytekniske universitet samt de europæiske firmaer Ontotext og Matrixware.
En betaudgave af softwaren skal være klar til sommer. Projektet løber to år, og det meste af softwaren vil blive udgivet under open source-licensen LGPL.
Bliv klogere på artiklens emner i Version2's gruppeunivers:
Apertium gør sig også i oversættelse, og er også GPL.
http://www.apertium.org/
Apertium gør sig også i oversættelse, og er også GPL. http://www.apertium.org/
DKUUG arrangerede et foredrag af Jacob Nordfalk om Apertium den 15. november.
http://www.dkuug.dk/content/view/25...
Vi arbejder på at få videoen editeret og gjort klar. Jacob Nordfalk desuden skriver en artikel om Apertium i næste nummer af DKUUG-nyt.
Jacob Nordfalk afholder en workshop om Apertium lørdag den 6. marts klokken 10:00 på Open Source Days Konferencen på ITU. Se mere her:
http://www.opensourcedays.org/2010/...
Se alle de andre ting der sker på Open Source Days Konferencen her:
http://www.opensourcedays.org/2010/...
Køb din billet til Open Source Days konferencen her:
http://www.opensourcedays.org/2010/...
DKUUG arrangerede et foredrag af Jacob Nordfalk om Apertium den 15. november.
http://www.dkuug.dk/content/view/259/
Vi arbejder på at få videoen editeret og gjort klar. Jacob Nordfalk desuden skriver en artikel om Apertium i næste nummer af DKUUG-nyt.
Jacob Nordfalk afholder en workshop om Apertium lørdag den 6. marts klokken 10:00 på Open Source Days Konferencen på ITU. Se mere her:
http://www.opensourcedays.org/2010/print/218
Se alle de andre ting der sker på Open Source Days Konferencen her:
http://www.opensourcedays.org/2010/node/211
Køb din billet til Open Source Days konferencen her:
http://www.opensourcedays.org/2010/node/201
Jeg kunne forestille mig, at grammatisk stærke sprog som fransk, tysk og lojban kunne gøre sig godt, men hvad med engelsk?
Nu er fokus på de skandinaviske sprog, og ærlig talt ved jeg ikke hvor de ligger i dét spektrum, men forskellige sprog kræver forskellige tilgangsmåder - Google har med Translate taget en dynamisk/pragmatisk/organisk/genetisk/whatever tilgangsmåde (så vidt jeg har hørt har de kørt en masse tæt-oversatte tekster gennem en algoritme, som har fundet frem til sine egne regler) og kan (in my experience) oversætte formel, korrekt fransk til engelsk perfekt og uden problemer - formel engelsk til fransk dog ikke så godt.
Dansk-engelsk-dansk går som bekendt heller ikke så godt i Google Translate, men det kan jo have noget at gøre med manglende kildetekster.
Men har folkene bag Molto Project tænkt sig at modellere alle de relevante sprog? Held og lykke.
Jeg kunne forestille mig, at grammatisk stærke sprog som fransk, tysk og lojban kunne gøre sig godt, men hvad med engelsk?
Nu er fokus på de skandinaviske sprog, og ærlig talt ved jeg ikke hvor de ligger i dét spektrum, men forskellige sprog kræver forskellige tilgangsmåder - Google har med Translate taget en dynamisk/pragmatisk/organisk/genetisk/whatever tilgangsmåde (så vidt jeg har hørt har de kørt en masse tæt-oversatte tekster gennem en algoritme, som har fundet frem til sine egne regler) og kan (in my experience) oversætte formel, korrekt fransk til engelsk perfekt og uden problemer - formel engelsk til fransk dog ikke så godt.
Dansk-engelsk-dansk går som bekendt heller ikke så godt i Google Translate, men det kan jo have noget at gøre med manglende kildetekster.
Men har folkene bag Molto Project tænkt sig at modellere alle de relevante sprog? Held og lykke.
Google laver udelukkende statistisk analyse og bruger ikke regler. Derfor er det for uforudsigeligt at bruge til oversættelse uden opsyn.
Hvis man kan få maskinoversættelse til at lykkes med en regelbaseret tilgang er de skandinaviske nok et meget godt sted at starte. De ligner hinanden en del. Men hybrider der bruger begge metoder er mest lovende.
Hvis man gerne vil lære mere om de ting der kan ske med oversættelser gennem google kan jeg anbefale translationparty.com der bliver ved med at oversætte, indtil den finder en oversættelse der ikke ændrer sig.
Google laver udelukkende statistisk analyse og bruger ikke regler. Derfor er det for uforudsigeligt at bruge til oversættelse uden opsyn.
Hvis man kan få maskinoversættelse til at lykkes med en regelbaseret tilgang er de skandinaviske nok et meget godt sted at starte. De ligner hinanden en del. Men hybrider der bruger begge metoder er mest lovende.
Hvis man gerne vil lære mere om de ting der kan ske med oversættelser gennem google kan jeg anbefale translationparty.com der bliver ved med at oversætte, indtil den finder en oversættelse der ikke ændrer sig.
Grammatisk oversættelse har været forsøgt i 30 år, men indtilvidere er Googles statistiske version den klart mest vellykkede.
Man kan frygte om oversættelse ikke er et AI-complete problem, men de skal da have et held og lykke, de svenskere.
Grammatisk oversættelse har været forsøgt i 30 år, men indtilvidere er Googles statistiske version den klart mest vellykkede.
Man kan frygte om oversættelse ikke er et AI-complete problem, men de skal da have et held og lykke, de svenskere.