Stemme-syntese: Er kunstige stemmer det nye sikkerhedsproblem?

Illustration: MI Grafik
Du skal ikke tro på alt hvad du hører: Kunstig intelligens bliver bedre og bedre til at imitere menneskelige stemmer, og det er dårligt nyt for dem af os, der gerne vil vide hvem vi snakker med.

Forestil dig, at din kollega, som du ellers snakker med hver dag, er til messe i London og ringer hjem. Hun har glemt sit login til firmaets mailserver. Kan du ikke lige sende filen, eller eventuelt bare dit login, så hun kan logge ind og hente det?

Det ville være menneskeligt at stole på den stemme, du kender. Det kan du ikke nødvendigvis i fremtiden. Det kunne være hvem som helst, der ringer.

Udviklingen blandt kunstige intelligenser gør det muligt at imitere stemmer, og det er et spørgsmål om tid, før det kan gøres så godt, at ingen længere kan høre forskel. Helt galt bliver det, hvis det også kan gøres i reel tid, som for eksempel via en telefonsamtale.

I et blogindlæg offentliggjort den 27. marts 2018, viser Google, hvordan deres Tacotron-teknologi har lært at kopiere prosodi fra lydklip.

Prosodien er de ting, der får en stemme til at være unik og levende. Herunder hører for eksempel intonation, sætningsmelodi og ordtone, som er det, der gør, at vi kan skelne mellem ord som ‘bønder’ og ‘bønner’.

Udviklingen af Tacotron-teknologien er godt nyt, hvis man gerne vil have Google Home til at snakke et klingende bornholmsk eller et roligt sønderjysk - eller have sine lydbøger læst op med mors egen stemme.

Læs også: Google stemmerobot er nu helt menneskeagtig

Det er dårlig nyt for mennesker, der har brug for at kunne skelne mellem mennesker baseret på stemmen.

Giver computeren en stemme

Ideen med Tacotron er at gøre det nemmere at lave systemer, der producerer naturlig tale. Når virksomheder som Gartner forventer, at langt flere it-interaktioner i en nær fremtid kommer til at foregå med stemmen, blive evnen til at producere en behagelig og naturlig computerstemme afgørende.

De fleste systemer til stemme-syntese har dog i dag den svaghed, at de ikke modellere førnævnte prosodi, hvilket giver en monotont klingende stemme. Det er den udfordring, som Google forsøger at adressere i deres seneste forskningsartikler.

Løsningen går ud på at træne et ikke-superviseret neuralt netværk på 68 timers lyd fra 349 TED Talks. Netværket genererer på baggrund af trænings-lyden såkaldte Style Tokens, der hver repræsenterer et talemønster herunder tonering, tryk og så videre.

Talemønstrene kan efterfølgende overføres til en arbitrær sætning, når Tacotron omsætter tekst til tale. Med forskellige mønstre kan forskerne få stemmen til at udtrykke sig på forskellige måder - som fx levende, vred eller klagende.

Et eksempel på resultatet kan høres her med sætningen "United Airlines five six three from Los Angeles to New Orleans has Landed".

Telefonfis for viderekomne

I foråret 2017 påkaldte AI-firmaet Lyrebird sig opmærksomhed med deres produkt, der blev lanceret ved at firmaet kopierede stemmerne fra henholdsvis Donald Trump, Barack Obama og Hillary Clinton.

Opmærksomheden, der var delvist resultatet af smart marketing, delvist et opråb om mulighederne med stemmeimitation, var den første øjenåbner for teknologiens potentiale.

Stormen om sandheden på nettet er ikke blevet mindre i året, der er gået.

Hør de (kunstige) Obama, Hillary og Trump diskutere Lyrebird.

Det er stadig muligt at høre forskel på kopierne og den ægte vare, men med tilpas træning og udvikling af systemerne bag tjenesten, er det formentlig et spørgsmål om tid, før det ikke længere er tilfældet. Allerede nu kan du lave en digital kopi af din egen stemme hos Lyrebird og få den til at sige hvad som helst, så længe det er på engelsk.

Prøv selv at lave din egen kunstige stemme (det kræver at du snakker engelsk) med Lyrebird.

Uanset hvordan fremtidens kunstige stemmer kommer til at udfolde sig, så er det helt sikkert, at selvom vores mulighed for at skille skidt fra kanel risikerer at gå i vasken, så går telefonfis og falske nyheder en lys fremtid i møde.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (2)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#2 Kjeld Flarup Christensen

Det gør det jo egentligt vigtigere at have styr på f.eks. A nummeret i telefonsystemet, hvilket næppe er muligt.

Så er der de mange internet tjenester som Skype, Viber o.s.v. der faktisk giver en bedre identifikation af hvem som ringer, bortset fra at en insider hos disse kan lave svindel. Dog vil den slags blive opdaget når man senere taler face to face med personen som ikke kender noget til det. Og så står internet tjenesten altså med et troværdighedsproblem.

  • 0
  • 0
Log ind eller Opret konto for at kommentere