Dataanalyse i naturligt sprog: »Hvis det kræver en manual, har vi fejlet«

Illustration: VectorKnight/Bigstock
Muligheden for at lave dataforespørgsler i naturligt sprog er på vej til at blive standard i analysesoftware. Sprogets tvetydighed er både en styrke og en svaghed, mener softwareingeniør hos Tableaus Ryan Atallah.

Hvilket produkt sælger bedst i Europa? Hvilke jordskælv har været mest dødelige? Hvor i verden var temperaturen højest i maj?

De spørgsmål, som brugere har til data, opstår sjældent som fuldendte SQL-queries. Men det kræver som oftest teknisk forståelse af data og analyseværktøjer at få svarene ud af tabellerne.

Derfor arbejder adskillige BI-leverandører på at udvikle og forbedre muligheden for at lave data-forespørgsler i naturlig dagligdagssprog frem for i stramt konstruerede queries. Og hos analyseselskabet Gartner forventer man, at 50 procent af queries i 2020 enten vil være automatiserede eller genereret gennem et natural language-interface – f.eks. med stemmen.

Hos BI-selskabet Tableau ser man natural language-interfaces som en måde at demokratisere dataadgangen, lyder det fra softwareingeniør Ryan Atallah.

»Vi vil have folk, der ikke er eksperter i dataanalyser, til at være i stand til at stille spørgsmål om data.«

Tableau regner med at have funktionaliteten implementeret i den udbredte platform i år. Og selvom teknologien for mange forbrugere bedst kendes for underholdende, men dybest set uproduktive, samtaler med assistenter som Siri og Alexa, skal det ikke være en gimmick, understreger Ryan Atallah.

»Vi vil ikke bare bygge et legetøj, som mange NL-produkter er i dag. Vi ville bygge noget, der er legitimt brugbart, og som man kan stole på for missionskritisk informationsindsamling,« siger han.

Massiv ineffektivitet

Ryan Atallah er en af flere grundlæggere af ClearGraph, der sidste år blev opkøbt af Tableau. Startup-virksomheden havde sat sig for at gøre data mere tilgængelige for forretningsbrugere

»Vi havde alle arbejdet ved forskellige selskaber i forskellige roller, og vi havde observeret nogle tendenser til massiv ineffektivitet og derfor rum til forbedring,« forklarer han.

Iværksætterne observerede, at mange selskaber genopbyggede data-views igen og igen for at gøre data anvendelig for bredere publikum af ikke-tekniske brugere. Herefter kom brugerne med nye spørgsmål, som igen krævede, at udviklerne genopbyggede dele af værktøjet.

»Det skete igen og igen, og det er noget selskaber bruger millioner af dollars på,« siger Ryan Atallah og fortsætter:

»Samtidig fandt vi, at folk kunne bygge de her værktøjer meget langsomt, men folk kom op med spørgsmålene meget hurtigt. Der var et data-loop, hvor folk stiller spørgsmål til udviklere og så er nødt til at vente dage, uger, måske endda måneder, hvis det er komplekst. Der var mange barriere mellem dem, der stiller spørgsmål, og dem, der leverer svarende.«

Erfaringerne er ikke kun indsamlet i gumpetunge virksomheder, der ikke er digitalt modne. Ryan Atallah selv fik sin inspiration fra Facebook, hvor han arbejdede inden ClearGraph.

Tvetydighed på godt og ondt

For at gøre dem, der stiller spørgsmålene, til de samme som dem, der finder svarene, valgte ClearGraph natural language som den primære metode til input.

»Det tager tid at lære et interface, du skal lære, hvilken knap der gør hvad, og nogle gange er det meget vanskeligt at opnå et intuitivt workflow. Vi ville gerne lave et interface, der ikke krævede nogen som helst træning. Vores regel ved ClearGraph var, at hvis det krævede en manual, så har vi gjort noget forfærdeligt forkert,« fortæller Ryan Atallah.

Udfordringen ved at kombinere dataanalyse og natural language er ikke mindst, at løst sprogbrug tilfører en masse tvetydighed til de instruktioner, brugeren giver maskinen. Hvis du f.eks. har et datasæt om jordskælv og spørger ‘hvilke var de mest dødelige’, skal systemet både regne ud, hvad der menes med ‘hvilke’ og med ‘mest dødelige’ – uden at der findes et datafelt, der hedder dødelig.

Men tvetydigheden er også en styrke, mener Ryan Atallah.

»Det giver brugeren mulighed for at lære og udforsker. De er ikke nødt til at skrive deres spørgsmål i et sprog som SQL, de behøver ikke være så præcise for at stille deres spørgsmål,« forklarer han.

Som en samtale

Atallah opstiller tre krav, som natural language-systemet skal leve op til for at være brugbart. Først og fremmest skal systemet åbenlyst være intelligent nok til at forstå spørgsmålet, der stilles. Derudover skal systemet være ekstremt transparent omkring hvordan spørgsmålet blev forstået, så brugeren ved, om forståelsen matcher deres intention. Endelig skal oplevelsen være iterativ – eller hvad Tableau kalder et conversational interface.

»Når du har en samtale, så består den ikke i, at du stiller ét spørgsmål og får ét svar. Du stiller mange spørgsmål og får mange svar. Over tid opbygger systemet en forståelse af, hvad du gerne vil have ud af data. Og som du får svar tilbage på dine spørgsmål, er du i stand til at rette misforståelser, så vel som at stille opfølgende spørgsmål,« siger Ryan Atallah.

At tænke interaktionen som en samtale betyder også, at selv komplekse visualisering kan opbygges i skridt. Hvis du vil se alle jordskælv i USA, der skete inden for de sidste tre år og havde mindst fire dødsfald sorteret efter styrke, så er brugere mere tilbøjelige til at starte med et simpelt spørgsmål om jordskælv i USA og gå videre derfra, mener Ryan Atallah.

»Så over tid kan brugeren komme frem til en kompleks visualisering med mange komponenter. Og vi fandt at det var en god løsning på tvetydigheden.«

Lærer af brugeradfærd

Intelligensen i Tableaus NLQ-system har flere komponenter. For at vide, at Danmark ligger i Europa, og at USA er lig med United States of America kommer systemet med en videnbase, der er bygget i systemets semantiske lag. Oven på den viden, systemet kommer med, skal brugere programmere deres egen terminologi ind i systemet efter behov, forklarer Ryan Atallah.

»Nogle gange følger et datasæt en anden semantisk struktur i et selskab end i andre. Et sted er en kunde en person, og et andet sted er en kunde et selskab,« forklarer han.

Den tredje del af systemets intelligens bygger på læring ud fra brugerens adfærd. Brugere, der stiller spørgsmål til et datasæt, bruger ofte de samme felter, og den information kan bruges til at forstå brugernes spørgsmål bedre.

»Så hvis brugeren ikke ved, hvilket felt der skal bruges, så vælger vi for brugeren baseret på, hvad systemet ved om brugerens adfærd,« uddyber Ryan Atallah.

Hvis en person f.eks. beder om at se de seneste transaktioner, er der forskel på intentionen, alt efter om brugeren sidder i salg eller i regnskab – og det skal systemet altså regne ud på baggrund af brugerens historik.

Garbage in ...

Selvom NLG’s primære formål er at give flere værktøjer til de ikke-tekniske brugere, vil analysearbejdet stadig kræve dataprofessionelle – blandt andet til at forberede og rense data, siger Ryan Atallah.

Et andet eksempel på, hvornår NL-interfacet står af, er datasæt, hvor tvetydigheden er for stor – f.eks. fordi kolonnerne har navne, der ikke giver mening. På den måde bliver det umuligt for systemet at matche spørgsmål til egentlige ægte data-felter.

»Den type opgaver bliver svære – hvis ikke umulige – at udføre gennem et NL-interface. Og publikummet, der kommer til at bruge interfacet, kommer formentlig ikke til at vide nok om data, til at udføre den type operationer effektivt,« vurderer Ryan Atallah og fortsætter:

»Vi kan berige datakilder med mere viden om verden, men hvis du uploader skrald, så er der ikke meget, vi kan gøre. Så der har du også brug for at have nogen dataeksperter inde over.«

Artiklen stammer fra Ingeniørens PRO-medie DataTech, som er målrettet professionelle i såvel private virksomheder som offentlige organisationer, der arbejder med data og analytics.

DataTech sætter fokus på anvendelse af data i en stadig mere digitaliseret verden. Udgivelsen følger danske virksomheder, kommuner og institutioners arbejde og strategier med at skabe mere værdi ud af data.

Du får inspiration, råd og erfaringer om, hvordan du analyserer og udnytter data, hvordan du navigerer ansvarligt og effektivt i junglen af love og regler på området, samt hvordan du udbreder værdien af dataanalyse til alle hjørner af organisationen.

DataTech giver dig viden om de nyeste teknologiske løsninger på tværs af fagområder, markeder og landegrænser. Og er medspiller i en fælles mission om at fostre etisk og sikker brug af data fordel for virksomheder og borgere.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (0)
Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017
Jobfinder Logo
Job fra Jobfinder