Neurale netværk er nu lige så gode til at forstå en samtale som mennesker

Ved at finpudse algoritmerne er det lykkedes Microsoft at opnå resultater i automatisk talegenkendelse på niveau med mennesker.

Talegenkendelse har været én af de store computermæssige udfordringer, lige siden området tog sin begyndelse i 1970'erne. Nu er det lykkedes forskere hos Microsoft at sammensætte neurale netværk, som er lige så gode til at forstå, hvad der bliver sagt, som mennesker.

Resultatet præsenteres i et blogindlæg og et paper.

Selvom algoritmerne nu klarer sig lige så godt som et menneske, så er det ikke ensbetydende med, at genkendelsen er fejlfri. Microsoft har testet på to datasæt og opnået fejlprocenter på henholdsvis 5,9 procent og 11,3 procent for mennesker og 5,9 procent og 11,1 procent for computeren på de samme lydbidder.

Det stemmer ifølge Microsoft overens med tidligere resultater for mennesker, om end der var en forholdsvis høj fejlrate for både mennesker og computer på det ene datasæt.

Dermed ser Microsoft altså ud til at have fundet en sammensætning af algoritmer, der ikke giver fejlfri talegenkendelse, men trods alt ikke er mere fejlbehæftet end et menneske.

Læs også: Teknologispring fra Google: 16.000 samples per sekund skaber unik kunstig menneskestemme

Algoritmerne er en kombination af to typer neurale netværk: Convolutional og recurrent. Der har været forsøg med andre typer neurale netværk, men disse to typer har vist sig at være de mest velegnede til både at afkode lyden og lave sproganalyse ifølge Microsoft.

Netværkene er blevet optrænet på dele af datasættet med 2.000 timers lydoptagelser ved hjælp af Linux-maskiner med flere grafikprocessorer, og der indgik mere end 20.000 forskellige ord i datasættet.

Der er forskel på 'mm-hmm' og 'mmm'

En af udfordringerne er alle de ord, der ikke er egentlige ord, men stadig har en sproglig funktion i en samtale.

Det er for eksempel nødvendigt at skelne mellem 'mm-hmm' og 'mmm', hvor det første er en bekræftende lyd, der informerer den anden part i samtalen om, at beskeden er forstået, og at vedkommende må fortsætte med at tale.

Den anden er en lyd i stil med et 'øhh', der bruges til at signalere, at den der taler, tænker sig om, men gerne vil bevare taleretten.

Samtidig er der mange ord eller dele af ord, der kan være svære at skelne fra hinanden på en optagelse. Her laver både mennesker og algoritmer fejl.

Alle disse mulige fejlkilder er imidlertid forskellige fra sprog til sprog og dialekt til dialekt, hvilket er én af grundene til, at talegenkendelse er nået længst på engelsk, fordi det er det sprog, der er arbejdet mest med.

Læs også: Machine learning fra dansk startup kan spotte hjertestop i 112-opkald

Selvom algoritmerne nu forstår, hvilke ord der bliver sagt i en samtale lige så godt som et menneske, så er der imidlertid meget lang vej til, at computeren forstår, hvad betydningen er af det, der bliver sagt.

»Der vil gå meget længe, før computere kan forstå betydningen af, hvad der bliver sagt,« udtaler Microsofts chef for forskning i kunstig intelligens, Harry Shum, i blogindlægget.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (10)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Rolf Andersen

Jeg er ikke IT-nørd, men er der ikke noget bemærkelsesværdigt ved, at Microsoft tilsyneladende har opnået disse resultater ved hjælp af Linux-maskiner?

På den anden side: Det er ofte nyttigt at bruge 'fjendens' teknologi til at blive klogere - og så oven i købet indrømme det.

Og så er jeg i øvrigt enig med Sebastian i, at det at en maskine kan 'forstå en samtale' nok er lige lovlig kækt skrevet af rubrik-redaktøren. Her er vi ovre i filosofien.

  • 1
  • 0
Andreas Kirkedal

Det er værd at lægge mærke til at de bruger bi-directional RNNs med LSTM celler. Dvs. at de både analyserer lydinput start->slut og slut->start og ikke kun start->slut som mennesker gør. Det er et fantastisk videnskabeligt resultat, men ikke synderlig praktisk anvendeligt i real-time talegenkendelse.

  • 2
  • 0
Rune Jensen

På den anden side: Det er ofte nyttigt at bruge 'fjendens' teknologi til at blive klogere - og så oven i købet indrømme det.

For nu at være ærlig... Jeg tror altså ikke den dér Linux vs. MS er i Microsofts mind set længere.

De bruger vel hvad der virker, og så er det dét.

Nu har jeg fulgt de tekniske videoer, som også Microsoft har lavet igennem tiden, og kendetegnende er, trods alt, at teknikerne ikke nødvendigvis havde de samme fordomme om "fjenden" (som også inkluderer Apple og Google btw.), som ledelsen har haft.

En tekniker er interesseret i teknologi, uanset hvem, som har udviklet det. Sjovt nok også hos Microsoft. Udover, det vil være statistisk uærligt at sige, at alle hos Microsoft hadede Linux.

Verden udvikler sig altså også, ligesom gør Mircrosoft. Det er ret lang tid siden, at Balmer satte retningen dér, og det er nu historie. Så jeg tvivler altså på, at selv i ledelsen, der er noget rigtigt fjendebillede længere imod Linux.

Det er lidt som at pukke på svenskerne, fordi de engang gik over isen og bankede os. På et eller andet tidspunkt, må man lægge det på hylden.

Se på teknologien, og bedøm dem på det.

  • 2
  • 0
Ditlev Petersen

Linux er et operativsystem, ikke en kunstig intelligens. De fleste operativsystemer af nyere dato kan antagelig køre den opgave uden at der er nogen større forskel Havde man tid nok (og en flok disketteaber) burde det kunne køres på CP/M. .

  • 0
  • 0
Log ind eller Opret konto for at kommentere