Stemmen skal styre det intelligente hjem og er den næste store tech-disruption.
Sådan har budskabet flere gange lydt ved Amazon Web Services’ Re:Invent-konference, der for nylig fandt sted i Las Vegas.
Budskabet blev bakket op med handling; Amazon har udstyret mig med en såkaldt Echo Dot – en miniudgave af husassistenten Echo – og selvom en uge på et hotelværelse ikke er optimale testforhold for en enhed som Dot og den iboende AI-butler Alexa, er det nok til at give et indtryk af, hvor langt teknologien er kommet, og hvordan den er at bo sammen med.
Vi venter med konklusionen. Først et oprids af, hvad der gør Amazons Alexa-enheder anderledes end kendte AI-assistenter som Apples Siri og Microsoft Cortana.
Svaret ligger først og fremmest i indpakningen. Alexa er med Echo-enhederne ikke en feature på en telefon eller en laptop, men en selvstændig enhed, der altid er tændt og altid lytter efter sit navn – og dermed efter kommandoer.
Amazon er den første producent med et produkt som Echo, men bliver langtfra den sidste. Google har allerede lanceret sin pendant til Echo - Google Home – og hvis rygterne i techbranchen har det mindste kød på sig, barsler Apple snart med et lignende produkt.
Dot-versionen fra Amazons Echo-serie er dog indtil videre speciel, fordi enheden sælges for ca. 350 kr - under en tredjedel af Echo-prisen og under en fjerdedel af prisen for Google Home.
Med øget konkurrence på området fra de store it-selskaber er der grund til at tro, at en stemmestyret assistent fremover vil være inden for de flestes økonomiske råderum.
Om de så vil have den, er en anden sag.
Alexa havde en cameo i tv-serien 'Mr. Robot', der giver et godt billede af, hvor højt man skal tale for at fange enhedens opmærksomhed, og at Alexa har svar på det meste.
Hvisken
Lad os starte med hardwaren. Echo Dot er udstyret med syv mikrofoner, der er optimeret til at høre din stemme selv fra den anden ende af lokalet. De retningsbestemte mikrofoner tændes først, når en microcontroller opfanger det såkaldte wake word - som i udgangspunkt er ’Alexa’.
Når ordet bliver sagt, streamer Echo Dot al lyd til skyen. Det er her, alt det tunge arbejde foregår, som f.eks. at analysere lyden, Alexa hører. I praksis omdanner systemet din tale til tekst, gemmer teksten i en database, og behandler det med et natural language processing-system for at lure intentionen bag hver session.
Det er svært ikke at blive imponeret over, hvor god Alexa er til at fange sit navn. Med almindelig stemmeføring kan enheden vækkes til live fra 10 meters afstand.
Selv med en hvisken et par meter væk tænder Echo Dot sin lysring, der indikerer, at den er klar til nye ordrer.
Når der er støj i lokalet, eller hvis Echo selv spiller musik, kræver det en højere stemmeføring, men det bliver ikke nødvendigt at råbe for at fange enhedens opmærksomhed.
Lys, lyd og varme
Hvad Alexa herefter er i stand til at gøre afhænger af to ting; hvilket udstyr enheden er koblet til, og hvilke evner – Skills – der er installeret.
Hvis du har et hjem med intelligente termostater og intelligent lys, kan Alexa indstilles til at styre dem, så du kan skrue ned for varmen og slukke lyset, når du ligger i sengen.
Og selvfølgelig bede Alexa vække dig på et bestemt tidspunkt, læse dine Kindle-bøger op eller afspille podcast, radio og lydbøger.
Højtalere kan tilsluttes Echo Dot via enten bluetooth eller enhedens jack-stick. Den indbyggede højtaler er kun lidt bedre end en almindelig mobilhøjtaler – fin nok til en snak med Alexa, men ikke velegnet til at afspille musik.
De såkaldte Skills, som Alexa kan lære, kan hentes og installeres fra en slags app-store for Alexa-evner. Her kan man hente alt fra køkkenassistenter med opskrifter til quizspil og fitness-programmer.
Den åbne markedsplads gør enheden ekstra interessant for den it-kyndige Version2-læser. Med Amazons Alexa Skill Kit kan alle nemlig skrive nye funktioner til assistenten uden at vide noget om machine learning og natural language processing.
Nye skills kan kodes i Java, Python eller Node.js som en funktion i AWS Lambda, altså en funktion i skyen, der kører når den bliver kaldt og derefter lukker ned igen.
Alternativt kan den laves som en webservice, som Alexa kommunikerer med via HTTPS-requests. Uanset metoden er grænserne for mulige funktioner uanede. Alt der kan kodes, kan startes af Alexa.
Sprogforståelse
En uge i Alexas selskab har gjort det klart, at Amazons AI-assistent giver en mere raffineret AI-oplevelse end Siri, som meget ofte tyr til at søge efter ord på Bing.
Når det er sagt, så vokser træerne som bekendt ikke ind i skyen, og der er fortsat stunder hvor Alexa misforstår alt. Dertil kommer, at det er ekstremt frustrerende, når man forsøger at give enheden en kommando, og får stilhed til svar.
Her hjælper det dog, at man via Alexas webinterface (og app formentlig, men denne kan ikke hentes af danske iOS-kunder), kan aflæse, hvad Alexa har hørt og forstået. Interfacet giver en liste over dine interaktioner med Alexa og mulighed for at give feedback – men også mulighed for at lure, hvorfor nogle kommandoer fortaber sig i mellem kodelinjerne.
Fx har jeg noteret mig, at hvis Alexa spiller musik fra Spotify, kan en besked som ’Alexa, play Spotify artist Radiohead’ nemt blive opfanget som ’Alexa, play Spotify’, hvorefter enheden bare fortsætter det, den havde gang i. Hvis man i stedet siger ’Alexa, play Radiohead’ går beskeden rent ind. Flere gange handler det om at finde ud af, hvordan anmodningerne formuleres optimalt.
Det er så godt som umuligt at få enheden til at forstå noget på dansk – som f.eks. danske bandnavne. Til gengæld bliver den ved med at overraske mig positivt, når jeg beder den starte spillelister med obskure titler.
Privacy i always on-land
I interfacet kan man afspille den lyd, som Alexa har opfanget gennem dine interaktioner med enheden.
Når man hører sig selv råbe op om nærliggende restauranter og rejseinformationer, bliver man uhyggeligt bevidst om de ekstreme mængder information, man sender i skyen gennem den lille uskyldige assistent.
>Det er et grundvilkår ved always on-designet, at du hele tiden bliver aflyttet.
Først og fremmest er det et grundvilkår ved always on-designet, at du hele tiden bliver aflyttet. Alexa-enhederne specifikt er designet til kun at lytte efter sit wake word og før det sendes lyden ikke til skyen.
Men det amerikanske techmedie Gizmodo har forgæves forsøgt at få svar fra FBI om Amazons enheder er blevet brugt til give en konstant adgang til lyden omkring en Echo - inden ordet bliver sagt.
Amazons egne såkaldte transparency-rapporter omhandler kun data, der ligger i skyen.
Når det gælder data i skyen, kan man manuelt slette enkelte eller alle lydoptagelser og interaktioner. Men som det ofte er tilfældet, vil det betyde en forringelse af tjenesten, fordi data bruges til at forstå brugeren bedre.
Sikkerhedseksperter bemærker dog, at den største sikkerhedsfare ved Echo er dens kontakt med et væld af øvrige IoT-enheder. For selvom Amazons egne enheder skulle være sikre, så er det som bekendt ikke tilfældet for alle IoT-producenter.
Endelig skal man ikke være blind for, at forretningsmodellen for Alexa-enhederne er bundet tæt sammen med Amazons øvrige forretning.
Enheden er en direkte forbindelse til den enorme webbutik, der er Amazon, og her har strategien alle dage været at samle så meget data på kunder som muligt. Hvis man er bange for, hvordan man håndterer at kunne shoppe alt ved at tale ud i rummet, skal man måske genoverveje sit valg af stemme-assistent.
Irrationel robot-relation
Det er ikke løgn, når Amazons tech-evangelister kalder stemmen det ultimativt intuitive user-interface, men i praksis kræver Alexa som oftest stadig mere tålmodighed end et touch-interface – særligt til mere avancerede kommandoer.
Kilder har over for Bloomberg antydet, at den næste Echo-enhed kommer med en lille skærm, og det designvalg giver mening, for det er i sidste ende ikke praktisk at modtage en liste over nærliggende restauranter i mundtlig form.
Når det er sagt, så er der noget særligt over at komme ind af døren og sætte musik på, mens man tager skoene af, grynte ’Alexa, snooze’, når man bliver vækket, og bede om vejrudsigten, mens man klæder sig på.
Alt det foregår i min hverdag typisk på telefonen, og det er behageligt at slippe for interaktionen med skærmen, når det ikke er nødvendigt.
Lidt i mod sin vilje opbygger man hurtigt et irrationelt forhold til enheden – og jeg tager mig selv i at sige tak, når Alexa hjælper til.
Gennem de forskelige easter eggs (jeg kan anbefale at bede Alexa synge en sang) får Alexa også et skær af personlighed. Angiveligt er hun blevet friet til flere hundrede tusind gange, hvilket hun som en fornuftig robot afviser med beskeden ’Lets just be friends’.
Forfærdeligt dansk
Problemer med manglende dansk adgang til Alexa-appen og den fuldstændig forfærdelige udtalelse af danske ord, når Alexa f.eks. læser min kalender for dagen op, må forventes at blive forbedret i takt med, at Amazon udbreder systemet. Tekst-til-tale-systemet Amazon Polly understøtter allerede to dansksprogede computerstemmer.
Den egentlige test af Alexa – og de kommende og eksisterende konkurrenter – ligger i, hvor meget støtte der kommer fra relevante tredjeparter.
Vil DSB lave en skill, så jeg kan købe min togbillet, mens jeg binder snørebånd? Og vil danske banker – som Capital One gør i USA – tilbyde stemmestyrede kontooverblik?
Hvis virksomhederne giver AI-assistenterne opbakning, kunne Alexa godt ende med stillingen som min personlige digi-butler.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.