Mundaflæsning kan forbedre talegenkendelse

Illustration: Google
Talegenkendelse kan gøres bedre, hvis man samtidig bruger machine learning til at analysere mundbevægelserne, viser forsøg fra Google.

Talegenkendelse er langt fra at være perfekt, og det giver ikke bare problemer med iPhone-ejere, der råber i frustration af Siri, men også, hvis man vil transskribere eller tekste store video- og filmarkiver.

En gruppe forskere hos Googles machine learning-afdeling har dog formået at forbedre talegenkendelse ved at kombinere den med mundaflæsning.

I en artikel redegør forskerne for brugen af machine learning til mundaflæsning på et stort arkiv af tusindvis af timers optagelser fra britiske BBC.

Google-forskerne har opbygget et neuralt netværk, der både kan lave billedanalyse på videodelen og lydanalyse på lydsiden af optagelserne.

For at nå dertil, var det dog nødvendigt at skabe endnu et neuralt netværk, som sørgede for at synkronisere de optagelser, hvor lyd og billede ikke passede sammen, skriver New Scientist.

Googles netværk kan lave mundaflæsning alene, og kan derigennem opnå en præcision, der svarer til en professionel mundaflæser. Det kunne dog forbedres ved at kombinere forskellige træningsmetoder for det neurale netværk. Før den ekstra træning lå fejlraten på 76,5 procent for algoritmen mod 73,8 procent for den menneskelige ekspert.

Når algoritmen blev kombineret med flere træningsmetoder og fik lydsiden til hjælp, faldt fejlraten målt på ord til 22,8 procent.

Læs også: Neurale netværk er nu lige så gode til at forstå en samtale som mennesker

Det vigtigste resultat fra Googles forsøg er, at det er muligt at forbedre talegenkendelse ved at kombinere analyser af både lyd- og billedsiden.

Et væsentligt forbehold er, at algoritmen kunne analysere på hele sætninger og altså kunne se på både forudgående og efterfølgende lyde og mundbevægelser, så der skal altså være et vist sætningsfragment til rådighed for analysen.

Det er dog også interessant, at Google har brugt et stort datasæt af optagelser fra tv-udsendelser, som ikke på forhånd var struktureret til oplæring i mundaflæsning, så resultatet skal altså ses i lyset af, at det bygger på analyse af reelle optagelser.

Ud over at understøtte bedre talegenkendelse ved eksempelvis at lade Google Now bruge kameraet, så kan teknologien også potentielt hjælpe Google med bedre at kategorisere og indeksere millioner af timers videoindhold, der ligger på eksempelvis Youtube, men ikke er mærket op med emneord.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (2)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Peter Kyllesbeck

"No shit Sherlock!

(ironi off)

Det har vi mennesker brugt altid. Derfor er det en pestilens med dårligt synkroniseret lyd - billede( og eftersynkroniseret med andet sprog).
Og uden at skulle starte en religionskrig, er tildækning af 'snakketøjet' (og omgivelser - mimik) en hæmsko for samtale.

  • 0
  • 0
Ditlev Petersen

Dave, although you took very thorough precautions in the pod against my hearing you, I could see your lips move.

Et andet lag af tolkningen af hørt tekst, er at udsagnet skal give mening. Hvis et eller andet er utydeligt, så kører vi det igennem mentalt et par gange med forskellige forslag. Efterhånden opbygger vi en sammenhængende udtalelse/fortolkning og som regel er det nogenlunde korrekt. Ingen ordentlig talegenkendelse uden forståelse.

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize