Sådan simultantolker Skype mellem engelsk og spansk

Microsofts chatprogram kan nu oversætte mellem engelsk og spansk ved hjælp af talegenkendelse og maskinoversættelse.

Softwaren, som kan oversætte et fremmedsprog i realtid, er et velkendt fænomen i science fiction, hvor den eliminerer besværet med, at eksempelvis besætningen ombord på U.S.S. Enterprise ikke kan forstå klingonsk, når sprogvanskeligheder ikke er vigtigt for handlingen.

Den slags automatisk oversættelse har vist sig at være noget mere vanskelig i virkeligheden, fordi den skal kombinere to ting, vi endnu ikke har mestret inden for datalogien: Talegenkendelse og maskinoversættelse.

Nu føler Microsoft sig imidlertid sikre nok på selskabets teknologi til at sende en Skype-version i betatest, som kan simultantolke mellem foreløbig engelsk og spansk.

De fleste, der har forsøgt at tale til en computer eller set de automatiske oversættelser, som Microsoft disker op med på eksempelvis Facebook, vil med rette stille spørgsmålstegn ved teknologien. Men Microsoft mener altså, at den er ved at være moden.

Microsofts danske afdeling oplyser dog til Version2, at der ikke er udsigt til dansk oversættelse lige foreløbig, men dansk har også tidligere været en frustrerende udfordring for Microsofts talegenkendelsesafdeling.

Læs også: Microsoft dropper planer om dansk tale-til-tekst i telefonbeskeder

Læs også: Dansk mumlen ikke til at forstå: Exchange 2010 bliver uden tale-til-tekst

Der findes dog i dag flere løsninger til talegenkendelse på dansk, men de indebærer en vis oplæringstid af softwaren og fungerer bedst inden for afgrænsede funktioner, som eksempelvis indtaling af journaloplysninger i kommunerne eller på hospitalerne.

Læs også: Aabenraa-ansatte konverterer 8 timers tastetid til 6 timers taletid

Udfordringen for Skype er, at der indgår to led i processen. Først skal det talte genkendes og omsættes til tekst. Dernæst skal teksten oversættes til et andet sprog, og endelig bliver den oversatte tekst læst op ved hjælp af talesyntese.

Talegenkendelsen bygger på analyse af lyden, hvor menneskets tale opdeles i tusindvis af små lydfragmenter. En variant af neurale netværk, DNN, kan analysere disse lydstumper og finde frem til et bedste bud på ordet ud fra en statistisk model. Det er en teknik, Microsoft har arbejdet på siden 2010.

Neurale netværk har hidtil ikke været så hurtige til talegenkendelse. Der findes andre statistiske modeller, som blandt andet arbejder ud fra sammenhængen, ordene indgår i, som er hurtigere. Men bedre neurale netværk og mere tilgængelig regnekraft har gjort det muligt at anvende de små lydstumper frem for fonemer, der er større byggesten i talesproget.

Microsoft har i flere år arbejdet på at finjustere og oplære modellerne på forhånd ved blandt andet at bruge grafikprocessorer til at gennemløbe flere oplæringscyklusser hurtigere. I 2010 byggede Microsoft således et neuralt netværk bestående af 66 millioner neurale forbindelser, som analyserede på 300 timers tale.

Det er det arbejde, som Skype nu udnytter, og som Microsoft også har brugt i blandt andet Cortana til Windows Phone.

Maskinoversættelsen bygger på samme teknologi som oversættelsen i Microsofts søgemaskine Bing, men der er særlige udfordringer. Der kan være betydelig forskel på talesprog og skriftsprog, og derfor skal algoritmerne oplæres til at oversætte fra talesprog til talesprog.

Blandt andet skal softwaren kunne sortere forskellige 'øh-lyde' fra og ignorere de gentagelser, vi laver, når vi eksempelvis kommer til at fejludtale et ord.

Ser man på Microsofts demonstrationsvideoer for Skype Translator, taler forsøgspersonerne da også et meget nydeligt engelsk og spansk. Ifølge Microsoft arbejder selskabet på at opbygge et større ordforråd af de særlige ord og vendinger, som er unikke for talesproget.

Microsoft har blandt andet anvendt data fra Facebook for at oplære maskinoversættelsen, fordi brugerne af sociale medier oftere anvender udtryk og ordstillinger fra talesprog, end man finder det i eksempelvis avisartikler.

Derudover har Microsoft anvendt tekster, hvor der er produceret en oversættelse af mennesker på eksempelvis websteder eller video med undertekster.

Det er også grunden til, at dem, der vælger at deltage i betatesten af Skype Translator, bliver bedt om at lade Microsoft indsamle lydstumper fra samtalerne, som kan bruges til at oplære systemet. Ifølge Microsoft bliver dataene anonymiseret.

Selv med moderne maskinlæring og et voksende datasæt til oplæring af algoritmerne, så er Skype Translator et godt stykke vej fra Star Treks Universal Translator. Parterne i samtalen skal således vente på, at softwaren genkender det talte, oversætter det og endelig læser det op. Det er således som at have en tolk med i samtalen, og det kræver tilvænning.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (2)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Christian Bruun

"stille spørgsmålstegn" - Nej, nej. :-)
Man 'stiller spørgsmål' eller 'sætter spørgsmålstegn'

Sproget er foranderligt, og det lader til (søgning) at være en ganske udbredt vending.

Det svarer til det at det er almindeligt at sige "prikken over i'et", på trods af, at der ikke er nogen (ekstra) prik over i'et (og der menes prikken som er en del af i'et) - men det skyldes at oprindeligt var der ikke nogen prik over i'et (kommer af ι (iota).

  • 1
  • 0
Log ind eller Opret konto for at kommentere