Sig 'tænd' til din toaster: Stemmen kommer til at styre dit hjem (mener Amazon)

3. december 2016 kl. 06:018
Stemmestyret software er den næste store tech-disruption, mener cloud-kæmpen. Men det kræver enormt meget tid at ramme den rigtige tone i samtalen.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Las Vegas. Hvis hovedparten af ens interaktion med stemmestyret software kommer fra Siri eller Googles stemme-søgning, kan vejen til en verden, hvor stemmestyring er en vital del af UI-arsenalet, virke som en lidt fjern fremtid.

Men stemmen er med stor hast på vej til at blive et ligeværdigt alternativ til touch og klik, lyder beskeden fra Amazon og dennes datterselskab, cloudkæmpen Amazon Web Services.

»Stemmestyring er den næste store disrupter inden for computing - som desktop, cloud og mobile har været før,« siger David Isbitski, der er tech-evangelist hos Amazon, ved AWS-konferencen Re:Invent, der i denne uge finder sted i Las Vegas.

»Det betyder ikke, at stemmen skal være det eneste interface, men det kommer,« fortsætter han.

Artiklen fortsætter efter annoncen

Amazon selv satser med AI-assistenten Alexa i hjemmecomputeren Echo på stemmestyring til at kontrollere hjemmets elektronik, lys og termostater. I oktober afslørede Google sin pendant til Echo med enheden Google Home, og rygterne svirrer i tech-verdenen om, at et lignende produkt er på vej fra Apple.

Intuitiv

Interaktionen med det stemmestyrede software er ekstremt intuitiv, lyder argumentet fra David Isbitski.

»Vi ved, hvordan man har en samtale. Det er naturligt,« forklarer han og fortsætter.

»Jeg oplever selv, at jeg siger please eller tak, når Alexa har hjulpet mig. Det er en forbindelse, man ikke har med et klik-interface.«

Artiklen fortsætter efter annoncen

Nøgleordet til stemmekontrollens spåede succes er samtale. En stor del af styrken i Alexa ligger i forståelse af sammenhængen, som stemme-beskederne bliver ytret i - hvad Amazon selv kalder en multistep-samtale.

Det betyder f.eks., at man i en session om vejret kan spørge Alexa, hvilke film der kan ses i nærheden, få et svar og følge op med spørgsmålet: 'How about 'Star Wars'?'. Motoren bag AI-assistenten vil i det tilfælde vide, at vi stadig taler om film, ud fra den kontekst og den intention, som Alexa analyserer ud af det, der bliver udtrykt.

Smertefuld stilhed

Udviklere og virksomheder, der vil interagere med Alexa, kan udvikle såkaldte skills via Amazons Alexa Skill Kit. Markedspladsen for skills er som en app-store for Alexa, der lærer assistenten nye opgaver.

Ligesom en menneske kan lære nye evner, bemærker David Isbitski.

»Skills bør give værdi,« fortsætter han.

»Det skal ikke tage lige så lang tid som at bruge telefonen. Brugere skal forstå, hvad der er de relevante requests, og Alexa skal give et brugbart svar.«

Den sidste del er ekstremt vigtig, fortæller Scott Totman, der er chef for innovation og mobilteknologi hos den amerikanske bank Capital One. For stilhed fra en stemmestyret assistent er en utrolig dårlig brugeroplevelse.

»Når Echo ikke svarer, er det endnu mere frustrerende end en hjemmeside, der ikke svarer,« siger han.

'Hvor mange penge brugte jeg i går?'

Capital One står bag et af de bedste eksempler på, at stemmestyring kan mere end at være en gimmick i UI-verdenen. Capital Ones bank-skill til Alexa er populær i USA og er basalt set en stemmestyret netbank, som gør det muligt at tjekke sin bankkonto og betale regninger med stemmen.

Artiklen fortsætter efter annoncen

I oktober fik Capital One-botten også tilføjet en semantisk søgefunktion, så brugere kan spørge, hvor mange penge der er brugt i f.eks. Starbucks.

Det har ifølge Scott Totman dog ikke været en simpel opgave at gøre tørre bank-funktioner til en behagelig samtalepartner.

»Banker er ikke gode til at tale som mennesker,« indleder han.

»Vi brugte en uforholdsmæssig meget tid på at ramme den rigtige samtale. Der var mange svar, som så fine ud på papiret, men hvis man hørte dem udtalt mange gange, var det smertefuldt.«

Udfordringen i at bygge en skill ligger ikke så meget i programmering som i at forstå, hvordan mennesker taler, understeger David Isbitski. Capital One identificerede over 150 mulige måder at spørge Alexa, hvad den seneste transaktion på kontoen var – herunder det meget løst formulerede spørgsmål 'hvad har jeg købt?'

Passende morsom

Interaktionen med Alexa må gerne være personlig og morsom, fortæller Scott Totman. Men man skal sørge for ikke at være morsom, når det er upassende.

Derfor er Capital One-botten indstillet til at være kort og præcis, når brugeren spørger efter konto-balancen. Til gengæld giver Alexa gerne en moraliserende bemærkning ('Make better choices, Scott.'), hvis brugeren spørger, hvor meget der blev spenderet i løbet af nattens bytur.

I modsætning til grafiske UI har stemmeassistenten ikke problemer UI-cluster, som ellers ikke er et ukendt fænomen inden for netbank-interfaces. Hvis en funktion ikke bliver brugt, så har den ikke gjort nogen skade, understreger Scott Totman.

Fra starten vidste brugerundersøgelser, at kunderne var åbne over for at bruge banken med stemmen. Men det blev også klart, at de var bekymrede for sikkerheden.

»Det er ikke som en telefon - der er ingen fysisk sikkerhed. Alle kan gå op og tale til enheden,« forklarer Scott Totman.

Sikkerheden ligger dels i muligheden for at have en pinkode, man siger højt til Alexa, og dels i de effektive begrænsninger, som tjenesten har.

»Hvis nogen stjæler din Echo, så er worst case-scenario, at nogen betaler din kreditkort-regning,« siger Scott Totman.

På privacy-fronten er konsekvenserne potentielt større. Hvis nogen får adgang til telefonen, der er parret med Echo-enheden, vil man samtidig få adgang til de interaktioner, brugeren har haft med Alexa. Og den historik er potentielt følsom, erkender Scott Totman.

Derfor vil Capital One fremover begynde at obfuskere dele af historikken, så følgerne af en stjålet telefon begrænses.

Version2 er inviteret til AWS Re:Invent af AWS.

8 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
8
5. december 2016 kl. 18:53

For mig vejer spørgsmålet om tillid til firmaet bag den slags produkter højest, og jeg synes, udviklingen har taget en ærgerlig retning. Engang syntes jeg, at IoT og stemmestyring lød spændende, og der er da helt sikkert også steder, hvor det kan gøre reel nytte (det synes jeg ikke det gør i forbindelse med en brødrister). Men den iver, firmaer som Google, Facebook, Amazon m.m. har efter at snage i ens privatliv har desværre gjort, at jeg har mistet lysten til at have det inden for døren. Med en dims i hjemmet med tændt mikrofon og forbindelse til Amazon tror jeg ikke, de ville kunne stå for fristelsen til at misbruge private samtaler til salg, markedsføring og lign. Det kan jo være, tingene ændrer sig en dag, men lige nu vil jeg foretrække en brødrister med en klassisk, mekanisk afbryder.

7
5. december 2016 kl. 16:33

Jeg synes det er godt, der kommer fokus på stemmestyring. Nogle gange er det hurtigere at sige "Hey, set an alarm for 7 o'clock" end at finde alarm app'en og vælge tid. Desværre er teknologien stadig alt for simpel til at have en "dialog" med sin smartphone på et rimeligt niveau. Jeg kender flere svagtseende personer, og de har langt større mulighed for interaktion og selvstændig mobilitet med stemmestyrede enheder, så det har bestemt positive sider.

Omvendt er det super ærgerligt at det kun er få store virksomheder, som har råd til R&D i god stemmestyring. Eksemplet med Capital One viser at enheder kan indeholde moraliserende svar, og det er et problem, når man som forbruger er "underlagt" et kodeks uden måske at være bevidst om det. Der burde være open source-software, hvor jeg selv kan indlæse de svar/forståelses-moduler, der passer til mine personlige holdninger. Jeg kan i alle fald frygte at vi ender med kun at bruge stemmestyring udviklet i USA og med et specifikt forståelses- og moralkodeks, der ikke stemmer overens med andre verdensdele.

6
5. december 2016 kl. 15:12

»Skills bør give værdi,« fortsætter han.

Det var ellers en god tankerække, han var startet på dér.

Alexa vil kunne gøre en rigtig positiv forskel og løse ægte problemer for udviklingshæmmede og den ældre befolkning; men at tro, at den understimulerede first world citizen har brug for at lave mindre i hjemmet? Nej.

Det forhindrer selvfølgelig ikke produktet i at sælge mere. Folk kan fandme knap nok skralde en kartoffel i 2016.

»Hvis nogen stjæler din Echo, så er worst case-scenario, at nogen betaler din kreditkort-regning,«

Nej, det er best case :)

5
5. december 2016 kl. 14:23

Lad os bare tage overskriften.

Hvad skulle pointen være med at ens toaster er stemmestyret? Umiddelbart vil jeg mene det var en dårlig idé.

Nogen ting virker trods alt bedst, når man holder sig til KISS princippet.

Amazon's Alexa og Google Home ser jeg stadigvæk som værende en gimmick. Jeg har problemer nok med at telefonen til at forstå mine kommandoer og nu kommer der flere enheder, der kan KUN styres med stemmen?

Nah, jeg tror jeg springer over denne gang.

4
5. december 2016 kl. 11:49

Har aldrig rigtigt set det smarte ved at side og snakke med ens smartphone, konsol, eller PC, men sådan er vi nok forskellig, ud over de sjældent fatter hvad man siger, så man nærmest skal stå og råbe og gentage tingene igen og igen.

Amazons Echo og Google Home er gået lidt i en uendelig løkke her:https://www.youtube.com/watch?v=ZfCfTYZJWtI

3
5. december 2016 kl. 11:25

Storrumskontor som rigtig mange mennesker arbejder i vil blive et helvede når naboen råber "Slet alt!".

Visioner er gode, lige som fantasier. Det er ikke alle der skal udleves.

2
5. december 2016 kl. 10:59

Det bliver sjovt når ens mange IoT begynder at skændes indbyrdes om hvem det var man gav order til at tænde/slukke LOL

1
5. december 2016 kl. 03:28

Der er privacy problemer med sådan et interface når man er blandt andre mennesker.

Hvordan kan jeg bruge sådan et interface i S-toget eller i et kontor delt med andre?