Danske forskere bruger deep learning til at finde stemmer i en høstak af støj

Illustration: VK Studio / Bigstock
Deep learning har været skelsættende for arbejdet med avanceret lydanalyse, fortæller dansk forsker.

Artiklen er originalt bragt på DataTech

Den menneskelige evne til at lytte efter en enkelt stemme, når du har en samtale i et rum fuld af konkurrerende samtaler, er enorm svær at efterligne med en algoritme.

I arbejdet med avanceret lydanalyse er det såkaldte cocktailparty-problem stadig uløst. Nu har danske forskere taget skridtet nærmere en løsning med deep learning.

»Udfordringen er, hvordan man fjerner uønskede støjkilder, når du optager i et støjfuldt rum med en enkelt mikrofon,« forklarer Morten Kolbæk, der netop har skrevet sin ph.d. om emnet ved Aalborg Universitet.

Når man kender et lydbillede på forhånd, som i et klinisk test-setup, kan algoritmer identificere en enkelt taler lige så godt som et menneske. Men hvis teknikken skal anvendes i fx. høreapparater, er det ikke nok. Modellen må kunne identificere en ukendt taler blandt en ukendt mængde af talere i en situation med en ukendt mængde baggrundsstøj.

»Uden forudgående kendskab er den menneskelige hjerne stadig den bedste maskine,« siger Morten Kolbæk.

Label permutation

Udfordringen ved at få en algoritme til at separere lyden fra to talere – der ikke er kendt på forhånd – er, hvad litteraturen kalder ‘label permutation'-problemet.

Basalt set går problemet ud på, at man gerne vil have et output fra modellen med en kanal for hver taler. Men du ved ikke på forhånd, hvilken stemme, der kommer ud af hvilken kanal.

Det er en udfordring, når man træner modellen, forklarer Morten Kolbæk, fordi du med supervised learning skal sammenligne modellens output med det rigtige resultat – her i form af lyden fra de to separate talere.

Med andre ord: Hvis taler A bliver separeret ud af modellen som output B, men træningsmodellen forventede, at taleren kom i output A, vil det fremstå som et forkert resultat.

»På den måde kan man ikke træne modellen, fordi du ikke kan guide det neurale netværk,« siger Morten Kolbæk.

Problemet løste de danske forskere ved at ændre lidt i træningsalgoritmen, og essentielt gøre rækkefølgen af talere ligegyldig under træning.

»Ved at gøre det, så løser vi label permutation-problemet. Det betyder, at man relativt simpelt kan træne et neuralt netværk til at separere talere fra hinanden. Det er noget, som man ikke kunne gøre før,« siger forskeren.

Algoritmen er demonstreret i følgende video:

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere