Over 1.000 ord aktiverer stemmestyringsassistenter: Flere samtaler end forventet sendes til teknologigiganter

Illustration: RUB, Marquard
Lydbider fra langt flere private samtaler end tidligere antaget bliver sendt til teknologigiganter som Google, Apple og Amazon. Det viser en ny tysk undersøgelse, som har fundet over 1.000 ord der aktiverer stemmestyringsassistenterne. Efterfølgende sendes en lydbid af samtalen til teknologiganterne.

"Ok, cool", "city" eller "tobacco". Det er bare nogle af de mere end 1.000 ord som kan aktivere en stemmestyringsassistent som Alexa, Cortana, Google Assistant eller Siri.

Normalt er det kun få aktiveringsord som Siri eller Alexa, som man forbinder med den type triggerord, men nu viser det sig at stemmestyringsassistenter reagerer på langt flere ord end tidligere antaget.

Det viser resultater fra Ruhr-Universität Bochum (RUB) og Bochum Max Planck Institute (MPI) for Cyber Security og Privacy.

De fleste stemmestyringssystemer aktiveres i en to-trinsproces, hvor et potentielt trigger-ord først analyseres lokalt. Hvis systemet tror der er tale om et trigger-ord, sender det en kort lydfrekvens til en cloud-løsning hos producenten, som så foretager en ny vurdering.

Hvis man her vurderer at der er tale om en falsk trigger-ord, går systemet tilbage i dvale. Selvom der er tale om falske trigger-ord, ender der altså en lydfil fra dagligstuen hos teknologigiganterne, hvor de ofte transkriberes manuelt for at træne systemet.

I undersøgelsen har de tyske forskere fundet over 1.000 ord på engelsk, tysk og kinesisk som aktiverer stemmestyringen, selvom de slet ikke er defineret som trigger-ord.

Her er analysen på Github

Sådan har forskerne testet hvilke ord der aktiverer forskellige stemmestyringsassistenter. Illustration: Maximilian Golla/RUB

Har set Game of Thrones

Konkret har forskerne undersøgt stemmeassistenter fra Amazon, Apple, Google, Microsoft, Deutsche Telekom, og tre kinesiske assistenter fra Xiaomi, Baidu, og Tencent.

De har afspillet timevis af både engelsk, tysk og kinesisk lyd, blandt andet flere sæsoner af serierne “Game of Thrones,” “Modern Family,” og “House of Cards,” ligesom der er afspillet professionelle datasæt af lyd, som normalt bruges til at træne smarthøjtalere.

Undersøgelsen er gennemført ved at registrere hvornår systemet aktiveres - der lyser en lille lampe - og så har forskerne lyttet til den lydsekvens der er gået forud for aktiveringen.

Afhængigt af udtalen aktiveres Amazons Alexa eksempelvis på ord som “unacceptable” og “election,”, mens Google reagerer på ord som “OK, cool.”

Aples Siri kan forvirres med ordet “a city,” Microsofts Cortana af “Montana,“ og Echo med “tobacco.”

»Enhederne er intentionelt programmeret til det her, fordi de skal være i stand til at forstå mennesker. Derfor har de en tendens til at starte op for ofte end slet ikke,« siger professor Dorothea Kolossa, professor ved Ruhr-Universität Bochum, Horst Görtz Institute for IT Security (HGI) i en pressemeddelelse.

Ved at analysere de umiddelbare trigger-ord, har forskerne fundet en stribe andre ord der tilsvarende aktiverer stemmestyringen.

»Fra et privatlivsperspektiv er det selvfølgelig alarmerende, fordi meget private samtaler kan ende hos fremmede. Fra et ingeniør-perspektiv er denne fremgangsmåde dog rimelig forståelig, fordi systemet kun kan forbedres med den her type data. Producenterne skal finde en balance mellem databeskyttelse og teknisk optimering,« siger Thorsten Holz, professor ved Ruhr-Universität Bochum.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere