Du kan lige så godt vænne dig til det: Snart vil du bede en virtuel assistent om at købe ind

3. marts 2017 kl. 05:116
Du kan lige så godt vænne dig til det: Snart vil du bede en virtuel assistent om at købe ind
Illustration: MI Grafik.
Tænd lyset med stemmen, og køb ind med en tekstbesked. It-giganter og analytikere udpeger virtuelle assistenter styret af naturligt sprog som det næste paradigmeskift i vores omgang med teknologi.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

»Alexa?«

En lysende cirkel tænder i den anden ende af stuen, og syv mikrofoner gør sig klar til at lytte.

»Hvordan virker du?« spørger jeg.

Ordene bliver transmitteret direkte ud i skyen, hvor de gennemgår en kompleks proces af tale-til-tekst, natural language processing og tekst-til-tale. Et øjeblik efter kommer svaret:

Artiklen fortsætter efter annoncen

»Mange mennesker har arbejdet hårdt på at oplære mig, og jeg lærer stadig mere,« lyder den behagelige kvindestemme.

»Ok,« svarer jeg.

Virtuelle digitale assistenter

I Ingeniørens serie af megatendenser sætter vi i de kommende uger fokus på virtuelle digitale assistenter, der er opstået i krydsfeltet mellem teknologier som talegenkendelse, deep learning og tekst-til-tale. Assistenterne skal gøre det muligt for os at bruge naturligt sprog, når vi vil styre hjemmet, shoppe og søge information, og har potentialet til fundamentalt at transformere den måde, vi tilgår vores elektronik på.

Følg med på ing.dk/fokus/digitale-assistenter. Læs i de kommende uger blandt andet:

Fremtidens interface: Snart vil du bede din virtuelle assistent om at købe ind(denne artikel)

Derfor er din fremtidige digitale butler en kvinde

Altid tændte og altid lyttende: Digitale assistenter udfordrer privatlivet

Alexa er en virtuel digital assistent – eller VDA – der på baggrund af stemmekommandoer på engelsk kan sætte musik på, tænde lyset og skrue op for varmen.

Den kan fortælle dig, hvem Donald Trump er, læse din lydbog højt og tjekke bankkontoen. Og den kan shoppe hos Amazon – handelsgiganten, der står bag Alexa-teknologien.

Artiklen fortsætter efter annoncen

Alexa er kun én af en række VDA’er, som ifølge analytikere og it-firmaer vil transformere den måde, vi anvender teknologi på.

Således kan den svenske storbank SEB’s kunder lade sig betjene af Amelia, en virtuel assistent udviklet af IPSoft.

Ikea-kunder kan få svar på spørgsmål af robotten Anna, mens kollegaen Lisa kan svare på over 70.000 kundehenvendelser om ugen for teleselskabet Verizon.

Og mens virksomheder supplerer kundeservicen med digital betjening, vil de globale it-giganter gøre ‘e-butleren’ til din primære måde at styre hjemmet på.

Amazons Alexa er sammen med Google Assistant, Facebooks M, Microsofts Cortana og Apples Siri alle elementer i en trend, der vil bringe den kunstige intelligens helt ind i dagligdagen.

»Vi skal som forbrugere vænne os til den her måde at interagere med teknologi på,« siger Fred Johnsen, der er konsulent ved Peak Consulting:

»Det er en udvikling, der går rigtig hurtigt.«

En skov af apps

For mange er det at sætte et vækkeur det mest avancerede, telefonens virtuelle assistent endnu er blevet brugt til.

Artiklen fortsætter efter annoncen

Men fremover vil din digitale lommebutler overtage langt mere komplekse opgaver, vurderer analytiker Anette Zimmerman fra konsulentvirksomheden Gartner:

»Vi forventer at AI (kunstig intelligens, red.), machine learning og virtuelle personlige assistenter bliver en af de store slagmarker i 2017 og frem, og at de vil få mobil-apps til at falde i baggrunden til fordel for virtuelle personlige assistenter,« forklarer hun.

Analysehuset vurderer, at 20 procent af vores interaktion med telefonen i 2019 vil foregå gennem virtuelle assistenter.

Interaktionen vil altså bevæge sig væk fra touch, og den uigennemskuelige skov af apps vil forsvinde til fordel for enkelte assistenter, der kan løfte et væld af opgaver, forudsiger virksomheden.

Frem for at have tre forskellige apps til forskellige formål satser skaberne af de virtuelle assistenter på at være til stede i bilen, på telefonen og på separate enheder i hjemmet som Googles Home og Amazons Echo.

Eller som Google Assistant selv formulerer det med en på én gang betryggende og foruroligende optimisme:

Analysehuset ABI Research forudsiger, at stemmekontrolleret elektronik i 2021 vil sluge en tredjedel af de penge, der bruges på at gøre hjemmet intelligent.

Foreløbige tal anslår, at Amazon har solgt over fem millioner Echo-enheder – intelligente højtalere med Alexa indbygget.

Og i en undersøgelse foretaget af konsulentvirksomheden Experian Information Solutions fremgår det, at omkring en tredjedel af ejerne har brugt Alexa til at handle online. Næsten lige så mange har bedt Alexa styre intelligente termostater, mens 45 procent har prøvet at tænde eller slukke lyset med den digitale assistent.

Den naturlige samtale

Amazon har da også store forventninger til både Alexa og teknologien bag.

»Stemmestyring er den næste store disrupter inden for computing – som desktop, cloud og mobile har været før,« siger David Isbitski, der er såkaldt tech-evangelist hos Amazon.

At interagere med en computer gennem dagligdags sprog – i tale og tekst – er ifølge Amazon den ultimative brugergrænseflade.

»Vi ved, hvordan man har en samtale. Det er naturligt,« siger David Isbitski og fortsætter:

»Jeg oplever selv, at jeg siger ‘please’, når jeg beder om hjælp, eller ‘tak’, når Alexa har hjulpet mig. Det er en forbindelse, man ikke har med et klik-interface.«

Gennem applikationer udviklet af tredjeparter kan både Alexa og Google Assistant lære nye egenskaber. På den måde kan virksomheder gøre deres tjeneste tilgængelig i stemmestyret form – som f.eks. den amerikanske bank Capital One har gjort.

Bankens kunder kan spørge Alexa, hvor mange penge, der blev spenderet på Starbucks i sidste uge. Eller i byen i nat. Og Alexa kan svare i et sprog, som forsøger ikke at lyde som en samtale med bankrådgiveren.

»Vi brugte uforholdsmæssigt meget tid på at ramme den rigtige samtale,« siger Scott Totman, der er chef for innovation og mobilteknologi hos Capital One.

»Mange svar så fine ud på papiret men var tåkrummende, hvis man hørte dem udtalt mange gange,« fortsætter han.

Det naturlige ved et stemmestyret interface er også det, der gør arbejdet med at udvikle programmer til stemmestyrede systemer komplekst. Ikke på grund af programmering, men fordi det kræver forståelse for det alsidige miskmask, der er menneskeligt sprog.

For eksempel identificerede Capital One over 150 mulige formuleringer, hvis man ville spørge Alexa, hvad den seneste transaktion på kontoen var – herunder det meget løst formulerede spørgsmål ‘Hvad har jeg købt?’. Og hver og én skal forstås af Alexa.

»Når Alexa ikke svarer, er det endnu mere frustrerende end en hjemmeside, der ikke svarer,« siger Scott Totman.

Robot-entusiasme

Det er applikationer som den fra Capital One, Alexa hentyder til, når jeg spørger, hvordan hun virker. Siri svarer mere undvigende med et ‘Hvem, mig?’. Og Google Assistant svarer med sin vanlige serviceorienterede robot-entusiasme:

Den reelle teknologi, der gør VDA’er mulige, er langt mere kompleks, end assistenterne selv giver udtryk for.

I stemmestyrede VDA’er mødes en række avancerede teknologier som stemmegenkendelse, natural language processing og tekst-til-tale.

Alt sammen understøttes af deep learning, en gren af feltet for udvikling af kunstig intelligens, der er inspireret af, hvordan den menneskelige hjerne fungerer.

»Deep learning er den store driver i store dele af den her udvikling,« forklarer Sebastian Risi, der er lektor på IT-Universitetets Institut for Digitalt Design.

Teknikken har i de senere år vundet stort indpas i tjenester til billedgenkendelse og oversættelse – og altså i virtuelle assistenter, hvor teknikken blandt andet bruges til at identificere det såkaldte wake-word – ordet, der skal fange den digitale assistents opmærksomhed – imellem al den øvrige lyd, som rammer enheden.

»Vi tænker nok ikke over, hvor fleksible vores hjerner er i forhold til at forstå udsagn og sætninger. Det er næsten umuligt at programmere det ind i computeren som regler. Computeren er nødt til at lære mønstrene,« siger Sebastian Risi.

Mønstergenkendelse er netop, hvad deep learning gør godt. Med deep learning sammensættes en række forskellige lag af neurale netværk. Hvert lag i systemet kan lære at genkende forskellige abstraktionsniveauer i det, der undersøges.

I et system til billedgenkendelse ville det første lag måske identificere kanter i billedet, det næste lag dele af objekter i billedet og næste lag selve objekterne.

På samme måde som Googles billedgenkendelse er blevet fodret med tusindvis af kattebilleder for at kunne genkende en kat, er Alexa blevet fodret med tusindvis af timers tale – med en tophastighed på 90 minutters tale i sekundet.

Ikke ved at lytte talen igennem med over 5.000 gange normal hastighed, men ved at omdanne lyden til et vektorformat, der kan oversættes til lydskrift og siden til almindeligt skriftsprog.

Træningen gør assistenten i stand til at forstå intentionen med den sætning, computeren hører, uanset hvordan brugeren vælger at udtrykke sig. Til en vis grad.

Mangler sund fornuft

Trods teknologiske landvindinger er assistenternes forståelse af deres menneskelige arbejdsgivere langtfra perfekt.

»Der er tilfælde, hvor et menneske ville vide med det samme, hvad der menes, men computeren ikke har nogen anelse,« siger Sebastian Risi.

Et forskningsrapport fra Microsoft annoncerede for nylig, at selskabets talegenkendelse nu forstår ord lige så godt som et menneske. Men selvom hvert ord genkendes, kan en robot let misse konteksten eller hensigten med ordene.

Et eksempel på den udfordring kunne amerikanske tv-seere opleve, da en tv-station i San Diego rykkede ud til en familie, hvor en seksårig pige havde bedt Alexa om et dukkehus, og robotten lydigt havde købt et ind via Amazon. Den historie bragte smil frem i tv-studiet i San Diego og fik en nyhedsvært til at sige: »I love the little girl, saying ‘Alexa, order me a dollhouse’.«

Idet bemærkningen blev transmitteret ind i tv-seernes hjem, blev den samlet op af adskillige Alexa--enheder, som prompte gik i gang med at shoppe dukkehuse.

I en sådan situation ville et menneske med det samme forstå konteksten, bemærker Sebastian Risi.

»De ville forstå, at beskeden kommer fra tv’et, og ikke reagere på det. Men den form for sund fornuft har computere ikke, og for dem er det ikke åbenlyst. Der skal stadig meget forskning til for at give dem den forståelse for kontekst.«

Og det kan da også være, at man som dansker får mest ud af at give assistenterne lidt mere modningstid, før de installeres.

Til dato er det kun Siri, der kan forstå dansk, hvilket i sig selv kan være en barriere. Det er for eksempel vanskeligt at få Alexa til at forstå navnet på et dansk band. Eller selv at forstå, hvad Alexa siger, når kalenderfunktionen opremser danske ord på computergenereret amerikansk-engelsk.

Fordi Alexa ikke er officielt lanceret i Danmark, fungerer flere funktioner, der bygger på lokationsoplysninger, heller ikke – såsom de nærmeste restauranter og biografer.

Men hvis du alligevel vil invitere en personlig digi-tjener ind i dit hjem, så anbefaler både Google og Amazon at vælge en placering væk fra dit tv.

Denne artikel strammer fra avisen Ingeniøren.

6 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
6
6. marts 2017 kl. 09:11

En AI assistent der sponsoreret af en fødevarekæde med samarbejde med talrige andre leverandører vil hurtigt fylde mine skabe op med ting jeg aldrig selv ville købe - til gengæld behøver jeg ikke spekulere over hvad jeg skal bruge de mange penge på min bankkonto til.

Det bliver dyrt... :)

5
4. marts 2017 kl. 07:09

Og det ville være rart om Ingeniøren altid havde privacy og etik vinklen med når I skriver om ny persondatabaseret tech. Spørg virksomhederne direkte ind til deres persondatapolitik. Det ville være god læserservice.

4
4. marts 2017 kl. 07:06

Enig i at vi skal være varsomme med, hvem vi fodrer med vores værdifulde data. Apples Siri er mit valg, da Apple har en god privacy politik og dataetik. Men det bliver dejligt den dag, vi får et europæisk preivacy-by-desig alternativ, hvilet jo heldigvis er sket inden for fitness-tracking, søgemaskiner, fertilitetstrackere mv

3
3. marts 2017 kl. 12:13

Jeg er vild med funktionaliteten, men at give firmaer som Amazon, Google, Microsoft eller facebook en mikrofon i dagligstuen virker som en virkelig dårlig ide.

2
3. marts 2017 kl. 11:38

Men vi har brug for aktivt at leve og bevæge os. At være i en virkelighed som ikke vil blive erstattet af virtual reality. Virkeligheden er bedre end 3D. Hvorfor faldt Segway til jorden og fik plads i BR legetøj? Hvis du kører istedet for at gå de få skridt du går hver dag, så bliver du så fed og syg at du hopper ned af den "Segway"! Hvorfor er kineserne ikke fede? Fordi de går til arbejde op til 4 kilometer. Og de går utroligt meget. Oplevelsen ved at købe ind og møde din nabo/genbo er en oplevelse vi ikke vil undvære. Drop alting der gør mennesket til en inaktiv sofakartoffel!

1
3. marts 2017 kl. 06:58

..."I en sådan situation ville et menneske med det samme forstå konteksten, bemærker Sebastian Risi."

Det forudsætter f.eks. at man genkender stemmen og ikke kun ordene og at man kan se at det kommer fra fjernsynet og ikke fra en person... og at man også ved om personen som siger det har lov til at bede om det.