Las Vegas. Hvis hovedparten af ens interaktion med stemmestyret software kommer fra Siri eller Googles stemme-søgning, kan vejen til en verden, hvor stemmestyring er en vital del af UI-arsenalet, virke som en lidt fjern fremtid.
Men stemmen er med stor hast på vej til at blive et ligeværdigt alternativ til touch og klik, lyder beskeden fra Amazon og dennes datterselskab, cloudkæmpen Amazon Web Services.
»Stemmestyring er den næste store disrupter inden for computing - som desktop, cloud og mobile har været før,« siger David Isbitski, der er tech-evangelist hos Amazon, ved AWS-konferencen Re:Invent, der i denne uge finder sted i Las Vegas.
»Det betyder ikke, at stemmen skal være det eneste interface, men det kommer,« fortsætter han.
Amazon selv satser med AI-assistenten Alexa i hjemmecomputeren Echo på stemmestyring til at kontrollere hjemmets elektronik, lys og termostater. I oktober afslørede Google sin pendant til Echo med enheden Google Home, og rygterne svirrer i tech-verdenen om, at et lignende produkt er på vej fra Apple.
Intuitiv
Interaktionen med det stemmestyrede software er ekstremt intuitiv, lyder argumentet fra David Isbitski.
»Vi ved, hvordan man har en samtale. Det er naturligt,« forklarer han og fortsætter.
»Jeg oplever selv, at jeg siger please eller tak, når Alexa har hjulpet mig. Det er en forbindelse, man ikke har med et klik-interface.«
Nøgleordet til stemmekontrollens spåede succes er samtale. En stor del af styrken i Alexa ligger i forståelse af sammenhængen, som stemme-beskederne bliver ytret i - hvad Amazon selv kalder en multistep-samtale.
Det betyder f.eks., at man i en session om vejret kan spørge Alexa, hvilke film der kan ses i nærheden, få et svar og følge op med spørgsmålet: 'How about 'Star Wars'?'. Motoren bag AI-assistenten vil i det tilfælde vide, at vi stadig taler om film, ud fra den kontekst og den intention, som Alexa analyserer ud af det, der bliver udtrykt.
Smertefuld stilhed
Udviklere og virksomheder, der vil interagere med Alexa, kan udvikle såkaldte skills via Amazons Alexa Skill Kit. Markedspladsen for skills er som en app-store for Alexa, der lærer assistenten nye opgaver.
Ligesom en menneske kan lære nye evner, bemærker David Isbitski.
»Skills bør give værdi,« fortsætter han.
»Det skal ikke tage lige så lang tid som at bruge telefonen. Brugere skal forstå, hvad der er de relevante requests, og Alexa skal give et brugbart svar.«
Den sidste del er ekstremt vigtig, fortæller Scott Totman, der er chef for innovation og mobilteknologi hos den amerikanske bank Capital One. For stilhed fra en stemmestyret assistent er en utrolig dårlig brugeroplevelse.
»Når Echo ikke svarer, er det endnu mere frustrerende end en hjemmeside, der ikke svarer,« siger han.
'Hvor mange penge brugte jeg i går?'
Capital One står bag et af de bedste eksempler på, at stemmestyring kan mere end at være en gimmick i UI-verdenen. Capital Ones bank-skill til Alexa er populær i USA og er basalt set en stemmestyret netbank, som gør det muligt at tjekke sin bankkonto og betale regninger med stemmen.
I oktober fik Capital One-botten også tilføjet en semantisk søgefunktion, så brugere kan spørge, hvor mange penge der er brugt i f.eks. Starbucks.
Det har ifølge Scott Totman dog ikke været en simpel opgave at gøre tørre bank-funktioner til en behagelig samtalepartner.
»Banker er ikke gode til at tale som mennesker,« indleder han.
»Vi brugte en uforholdsmæssig meget tid på at ramme den rigtige samtale. Der var mange svar, som så fine ud på papiret, men hvis man hørte dem udtalt mange gange, var det smertefuldt.«
Udfordringen i at bygge en skill ligger ikke så meget i programmering som i at forstå, hvordan mennesker taler, understeger David Isbitski. Capital One identificerede over 150 mulige måder at spørge Alexa, hvad den seneste transaktion på kontoen var – herunder det meget løst formulerede spørgsmål 'hvad har jeg købt?'
Passende morsom
Interaktionen med Alexa må gerne være personlig og morsom, fortæller Scott Totman. Men man skal sørge for ikke at være morsom, når det er upassende.
Derfor er Capital One-botten indstillet til at være kort og præcis, når brugeren spørger efter konto-balancen. Til gengæld giver Alexa gerne en moraliserende bemærkning ('Make better choices, Scott.'), hvis brugeren spørger, hvor meget der blev spenderet i løbet af nattens bytur.
I modsætning til grafiske UI har stemmeassistenten ikke problemer UI-cluster, som ellers ikke er et ukendt fænomen inden for netbank-interfaces. Hvis en funktion ikke bliver brugt, så har den ikke gjort nogen skade, understreger Scott Totman.
Fra starten vidste brugerundersøgelser, at kunderne var åbne over for at bruge banken med stemmen. Men det blev også klart, at de var bekymrede for sikkerheden.
»Det er ikke som en telefon - der er ingen fysisk sikkerhed. Alle kan gå op og tale til enheden,« forklarer Scott Totman.
Sikkerheden ligger dels i muligheden for at have en pinkode, man siger højt til Alexa, og dels i de effektive begrænsninger, som tjenesten har.
»Hvis nogen stjæler din Echo, så er worst case-scenario, at nogen betaler din kreditkort-regning,« siger Scott Totman.
På privacy-fronten er konsekvenserne potentielt større. Hvis nogen får adgang til telefonen, der er parret med Echo-enheden, vil man samtidig få adgang til de interaktioner, brugeren har haft med Alexa. Og den historik er potentielt følsom, erkender Scott Totman.
Derfor vil Capital One fremover begynde at obfuskere dele af historikken, så følgerne af en stjålet telefon begrænses.
Version2 er inviteret til AWS Re:Invent af AWS.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.