Lyttende tv afslører fremtiden for talegenkendelse

Cloud computing har for­bedret talegenkendelse så meget, at teknologien nu stormer frem.

It-ordførerne på Christiansborg, Forbrugerrådet Tænk og almindelige forbrugere slog for nylig løs på et nyt smart-tv fra Samsung.

Det nye tv optager lydene omkring sig og sender dem via nettet til et firma, der genkender talekommandoer og sørger for, at tv’et bl.a. kan skifte kanal, uden at du behøver løfte en finger.

Kritikken bundede i en frygt for overvågning i hjemmet, men midt i den ophedede diskussion druknede et kig på det teknologiske fremskridt. Netop tv’ets kobling til nettet er nemlig det trick, der får talegenkendelse til at sprede sig i disse år.

I stedet for at et apparat – i dette tilfælde dit tv – selv prøver at matche dine talte kommandoer med et begrænset antal forprogrammerede kommandoer på en lagerenhed i tv’et, kan det ved opkobling til nettet trække på et stadigt stigende antal lagrede kommandoer i skyen.

Jens Kjærum er direktør i det danske talegenkendelsesfirma Dictus, og han forklarer gevinsten ved at anvende cloud-teknologi til talegenkendelse på denne måde:

»Med cloudteknologi har man forbedret lingware, altså talegenkenderens sprogressourcer (forståelsen for sprogets ordforråd og grammatiske opbygning, red.). Netop sprogressourcerne har haltet bagefter, fordi det har krævet rigtig meget manpower og mange ressourcer at udvikle – bare til engelsk. Og det er næsten helt umuligt at bruge de samme ressourcer på mindre sprog som f.eks. dansk. Men når man har det ude i clouden og har gjort det let tilgængeligt på mobiltelefoner, så får du pludselig noget big data, som gør, at man med nogle algoritmer kan udnytte det, som man før var nødt til at investere mange ressourcer og meget manpower i.«

Illustration: Nanna Skytte

På den baggrund mener Jens Kjærum, at talegenkendelse er midt i en revolution:

»For et par år siden ville det være fuldstændig sci-fi, at man kunne tale til sit fjernsyn og sige: ‘Vis mig en film med Harrison Ford’. Men teknologien er blevet så god, at det faktisk er muligt at gøre det – vel at mærke uden, at talegenkendelsesprogrammet laver for mange fejl,« siger han.

Samsung benytter sig af det amerikanske firma Nuance, der også leverer talegenkendelse til biler, sundhedssektoren og flere andre producenter af smart-tv. Også Apples Siri, Google Now og Microsofts Cortana anvender cloud-teknologi til talegenkendelse.

Talegenkendelse kræver kræfter

Talegenkendelse bliver normalt opdelt i tre faser – akustisk modellering, udtalemodellering og sprogmodellering (se boksen). Og det er altså sprogmodelleringen, der har fået et boost af den store dataindsamling, der kan foregå via cloudteknologi.

Sprogmodelleringen i talegenkendelsesprogrammer virker ved, at programmet analyserer nogle tekststrenge og finder det, som der med størst sandsynlighed er blevet sagt.

Andreas Søeborg Kirkedal, ekstern ph.d. ved Mirsk Digital Aps, uddyber:

»Programmet står med en masse tekststrenge, og skal så finde ud af, hvad der er blevet sagt. Det kigger på det ord, der står til venstre – altså før. Det ord, der står foran, er nemlig ret godt til at vise, hvad der mest sandsynligt skal komme efter. Når man så kigger på konteksten, kan programmet fortælle, hvilket ord der med størst sandsynlighed passer bedst ind.«

Andreas Søeborg Kirkedal forklarer, at online-talegenkendelsen er smart, når vi benytter os af f.eks. mobilen, da regnekraften, der skal til at for at foretage talegenkendelsen, sker på en ekstern server.

»Hvis man gør det online, tager den lydbidderne og sender dem til en server. Serveren knuser så tal­lene for dig, og derfor skal din enhed kun stå for at sende og modtage information, hvilket ikke kræver så meget.«

Han forklarer yderligere, at hvis offline-stemmegenkendelse skulle være lige så omfattende som online, ville det tappe ens mobil for strøm på ingen tid.

»Det vil dræne batteriet alt for hurtigt. Derfor sætter man historikken ned, altså hvor mange ord den skal kigge tilbage, og man kan også begrænse, hvor mange ord den lokale enhed kan forstå, så det ikke kræver for meget,« siger han.

Denne artikel stammer fra den trykte udgave af Ingeniøren, som udkommer i fredag d. 20 februar 2015.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (6)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Henrik Madsen

Hvor længe der går inden fjernsynet bliver istand til at alt hvad du siger og så sælge oplysninger om dine vaner til reklamefolk.

Kan lige se det i fremtiden hvor streamet fjernsyn hvor individuelle reklamer kan sendes i programmerne.

Når det detekteres at det er børn der sidder foran flimmeren så vises der reklamer for børn, når det er far der sidder der så er det reklamer for de ting han interesseret sig for og når det er mor der sidder der så er det reklamer for ting hun interesserer sig for og reklamer for vaskepulver osv.

i dag er det jo sådan at søger du f.eks på "Sonos" på Google så er der pludseligt reklamer for sonos produkter på alle de sider du besøger som bruger Google ads, så det er jo ikke fordi det ikke allerede eksisterer, det skal bare udvides til at dække fjernsynet også.

Jeg tror jeg foretrækker at købe et fjernsyn med en fysisk knap som fysisk afbryder mikrofonen i fremtiden.

  • 4
  • 0
Kim Kaos

Det er i forvejen en pain at bevæge sig rundt på nettet når det kommer til reklamer.

De fleste af os har i forvejen alle mulige filtre installeret og alligevel så slipper der nogle igennem - ofte fordi filter-producenten har solgt sin sjæl (og din r@v) til nogle store med mange penge.

Men når man begynder at handle og søge på Amazon - eBay - ali-et-eller-andet og alle de andre så sker der det mærkelige at uanset om du var logget-in eller ej så begynder der at dukke reklamer op med tilbud på det du søgte - og var du logget-in så er fanden løs i Laksegade og din mailbox fyldes dagligt.

Selv nå man gå ud på nettet undercover: inkognito så sker der ting og sager - søger man efter en cykel så dukker der cykelreklamer op over alt - de sætter en krog i dig og alle steder man dukker op har den en håndfuld reklamer der er designet til dig.

Nu er vores TV åbenbart det næste mål for reklamebranchen og måske kan vi vente i fremtiden at når man går forbi TVet så tænder det af sig selv og vil lige fortælle dig om den nye shampoo som din bruser har fundet ud af vil passe til din hårtype eller at der er tilbud på tandbørster fordi chippen i din egen fortæller den snart skal udskiftes.

  • 0
  • 0
Søren Harder

Man skal huske på at sprogmodellen basalt set er en database med mange mio ord. (Da jeg beskæftigede mig med det for ca. 10 år siden var det omkring 20-200 mio ord.) At 'komprimere' denne repræsentation er muligt, men det koster tid, udviklingsresourcer, beregningsresourcer og ikke mindst kvalitet. Som et kuriosum, for at folk kan forstå hvor krævende talegenkendelsesprocessen er, kan jeg huske at jeg, da jeg skrev opgave i fonetik i ca. 1990, sad på en special-udviklet computer (der kostede over 100.000 kr) og beregnede akustiske modelleringer (dvs. den første trin i grafikken: ingen fonem-analyse eller endsige sprogmodeller). Et enstavelsesord kunne typisk processeres på 30 minutter (computertid). Desværre havde jeg ikke hørt om scripts, batchprogrammering o.l.

  • 2
  • 0
Bent Jensen

Hvor længe der går inden fjernsynet bliver istand til at alt hvad du siger og så sælge oplysninger om dine vaner til reklamefolk.

Det kan det nu, ikke sådan selv, men ved at sende oplysninger til nettet. Derfor mange mener at vi er ved et punkt, hvor der skal siges stop.

Men godt at V2 bringer noget af de PR historie som der nu skal i medierne, om hvor godt denne overvågning og teknologi er for os alle. For så er det Samsung har gang i ikke så slemt, og borgers bekymringer over overvågning består kun i at de ikke har forstået det. Nej hvis de have forstået det, så ville der ikke komme nogen folkevalgte ind, som nikker ja til de nuværende og planlagte love om overvågning. Når forskrækkelsen over det sidste angrib har lagt sig. Men ligesom i 2001, så er de love som aldrig normalt ville have sin gang på jorden, de er vedtaget, og ingen tænker på at rulle dem tilbage.

Men mens V2 har været mikrofon holder, så har vi fået den sidste historie om at NSA har kompromitteret SIM kort, så de fleste i verden med mobiltelefoner kan være udsat for overvågning. Det er nok sådan arbejde som den extra halve milliard om året til at bryde kryptering skal bruges til. Mon det er lovligt at angriber firmaer i EU ødelægge deres arbejde som der er sket her. Måske for USA i EU. Men må Danmark det over for et andet EU land. De er jo "medskyldig" hvis de bruger den data som indsamles. Eller er vi i den situation at jeg slår din kone ihjel, og du min. Så er der ikke nogen der opdager noget, og det er næsten lovligt.

  • 2
  • 2
Log ind eller Opret konto for at kommentere