Intelligenstilbud fra Amazon: AI-som-service - byggesten til samtale-bots
LAS VEGAS: Talegenkendelse og forståelse af naturligt sprog er en del af en ny machine learning-pakke, som Amazon Web Services netop har tilføjet deres sky-tjeneste.
Det annoncerede cloudgigantens chef, Andy Jassy, på it-konferencen Re:Invent, der i denne uge finder sted i Las Vegas.
Den seneste udvidelse - kaldet Amazon AI - består af tre funktioner: billedgenkendelse, tekst-til-tale, talegenkendelse og såkaldt natural language processing.
»Vi er fokuseret på, at det ikke kun skal være eksperter, der kan bruge machine learning. Alle udviklere skal kunne inkludere det,« forklarer Andy Jassy til de i alt 32.000 konferencegæster.
Alexa-funktionalitet
Det er særligt de AWS-funktioner Amazon Polly og Amazon LEX, der tager sit navn fra de midterste bogstaver i selskabets stemmestyrede AI-assistent Alexa, som gør det forholdvist simpelt at udvikle stemmestyrede bots og interfaces.
LEX bruger først og fremmest automatisk talegenkendelse til at lave tale om til tekst. Derefter bruges natural language processing til at forstå, hvad der menes med teksten
Cirklen fuldendes af Amazon Polly, der er en tekst-til-tale-tjeneste, som gør det muligt at få applikationen til at svare brugeren - og dermed lave et samtalebaseret interface. Polly, der er baseret på deep learning, importerer en tekst og giver en mp3-stream tilbage, som udtaler teksten.
Der er intelligens i tjenesten, understreger Andy Jassy.
Hvis Polly f.eks. får beskeden 'Temperaturen i Kbh er 20C', kan systemet forstå, at der er tale om forkortelser - og når lyden kommer tilbage, udtales hele budskabet. 24 sprog er understøttet af funktionen indtil videre - herunder dansk.
Rammeværk til tale-bots
Det er - som navnet LEX antyder - den samme teknologi, der driver AI-assistenten Alexa, der er AWS's svar på Siri og Cortana. Men afkoblet fra de fysiske enheder som Amazons stemmestyrede hjemmeassistent Echo, forklarer Ian Massingham, der er en såkaldt teknologievangelist hos AWS.
»Det giver et framework til at udvikle samtalebaserede apps, og det gør det simpelt for udviklere at lave samtalebots, der føles naturlige for brugere,« indleder han over for Version2.
Systemet kan kombineres med såkaldt funktion-as-a-service-tjenester, som i AWS-regi har titlen Lamda, der kan udføre systemkald baseret på prædefinerede triggere. Så man f.eks. kan bede en bot om at booke en flybillet, hvorefter det egentlige kald til billetsystemet udføres.
»Den type API-kald kræver noget kode i for eksempel Java,« fortæller Ian Massingham.
»Men du behøver ikke at vide noget om natural language processing,« for at bruge det her, fortsætter han.
Intentionen med samtalen
Interaktionen med LEX foregår i trin, hvor man som bruger kan blive ved med at uddybe sit ønske, og den samlede 'intention' fastholdes over samtalen i et objekt, der leveres fra LEX til applikationen.
Herefter kan programmet udføre givne handlinger på baggrund af den intention, samtalen med brugeren giver udtryk for.
Netop fordi det er simpelt at bruge, er AWS-folket overbevist om, at funktionerne kan fange udviklernes interesse - også selvom der er gratis, open source-alternativer til f.eks. talegenkendelse.
»Man skal generelt holde sig fra at bygge platforme, hvis det ikke er ens forretning. For så kan man koncentrere sig om at bygge produktet,« bemærker Ian Massingham.
Version2 er inviteret til AWS Re:Invent af AWS.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.