Odense-forsøg sikrer Danmark førerrollen inden for talegenkendelse

Talegenkendelse er på vej til at revolutionere offentlige sagsbehandleres arbejde. Europas største kommunale forsøg med teknologien finder sted i Odense.

Normalt er 10-fingersystemet og lyden af det fulde danske alfabet banket ud gennem plasticknapper et fast element i hverdagen for sagsbehandlere i landets 98 kommuner. Men den ellers så velkendte tastaturlyd har i flere kommuner fået hård konkurrence.

Her eksperimenterer de med talegenkendelsesprogrammer, der gør det muligt for sagsbehandlerne med talte ord at indrapportere deres sager på computeren – på langt kortere tid, end de kan taste de samme sager ind.

Normalt sammenligner Danmark sig med de skandinaviske lande, når vi taler velfærdsteknologi. Og inden for talegenkendelse har Danmark, ifølge Børge Lindberg, professor i talegenkendelse ved Aalborg Universitet, lagt sig i spidsen af feltet:

»Vi er længere fremme med talegenkendelse i Danmark, hvor teknologien er til rådighed og bliver brugt. I Norge og Sverige er de først ved at indkøbe lignende løsninger,« siger han.

Det største forsøg i Europa foregår lige nu i Odense, hvor 700 sagsbehandlere bruger talegenkendelse som et fast element i deres hverdag. Hvis anvendelsen fortsætter i samme opadgående retning som nu, vil hver sagsbehandler i kommunens jobcenter kunne spare otte timer om måneden. Næste år vil over 1.400 sagsbehandlere, som bruger mere end halvanden time dagligt på at skrive journal, anvende teknologien.

Sparer både tid og penge

Erfaringsgrundlaget er allerede nu så stort, at man kan udpege de præcise arbejdsområder, hvor talegenkendelse nu og i fremtiden vil betyde en kæmpe tidsbesparelse og i sidste ende også en økonomisk besparelse.

Især i kommunens jobcenter og borgerservice, hvor sagerne i høj grad er standardiserede, har de kunnet mærke en stor aflastning, fortæller digitaliseringschef Allan Schiellerup Bager:

»Erfaringerne fra Jobcentret og Borgerservice beviser, at talegenkendelse helt klart har sin berettigelse. Her viser vores statistik, at medarbejderne på ganske kort tid har nået en tidsbesparelse på 50 procent, hvis de eksempelvis skriver tre timer om dagen. Derfor tror vi på den her teknologi,« siger han.

Tre andre danske kommuner har lignende projekter kørende, og her er erfaringerne de samme: Hvis man bruger standardvendinger og -ord, giver talegenkendelse et godt afkast.

I alt arbejder der omkring 4.500 sagsbehandlere på jobcentrene i Danmark, så en månedlig besparelse på otte timer pr. medarbejder vil alene her kunne frigive, hvad der svarer til næsten 250 fuldtidsmedarbejdere fra den administrative del af sagsbehandlingen.

Talegenkendelsesprogrammet har omvendt vist sig at have problemer i afdelinger, hvor sagerne indeholder både standardfraser og teknisk sprog, eksempelvis i økonomiforvaltningen. En særskilt sprogmodel, hvor ordbogen er optimeret til økonomihåndtering, kan være en løsning på det problem, mener Børge Lindberg.

Langsom indlæring

Mens talegenkendelse er effektivt, når systemet kører, har programmets ‘læretid’ dog vist sig længere end ventet. Og det betyder, at Odense Kommunes forventning om med projektet at spare 78 millioner kroner frem mod 2015 ikke bliver opfyldt:

»Vores erfaringer viser, at det tager tre gange længere tid end forventet at lære programmet ens stemme at kende. Med den kendsgerning in mente må vi sige, at de beregnede besparelser ikke bliver nået inden for de tre år, vi har afsat,« siger Allan Schiellerup Bager.

En måde at oplære systemet på er, at den enkelte sagsbehandler fysisk retter ord til, som programmet ikke forstår, hvorefter programmet lagrer ordet og dets betydning.

Men for at fremskynde oplæringen af systemet har Odense Kommune lavet et udtræk fra det system, kommunen bruger til elektronisk håndtering af sine sager og dokumenter - det har givet et tilskud til ordbogen på intet mindre end 100 millioner ord, vendinger, endelser og lignende.
Disse data vil blive overført til det østrigsk ejede Nuance, som står for at udvikle programmet, der sælges af IBM i Danmark. På den måde bliver kommunen en stor bidragyder i forhold til at tage talegenkendelse et teknologisk skridt videre, mener projektleder i Odense Kommune Carl Østergaard.

»Og som en af de største testplatforme for talegenkendelse er vi selvfølgelig interesserede i at gøre systemet hurtigere,« siger han.

Brug det de rette steder

Der er dog arbejdsfunktioner, hvor tastaturet fortsat vil være en nødvendig samarbejdspartner. Det gælder f.eks. for mellemledere, der bevæger sig mellem mange forskellige arbejdsområder.

Derfor skal både kommunerne og alle andre institutioner, som i fremtiden vil skifte tastaturet ud med talegenkendelse, være meget bevidste om at koncentrere brugen de rette steder, påpeger Børge Lindberg.

»Jeg tror på, at talegenkendelse har et stort fremtidspotentiale. Men kommunerne skal anerkende begrænsningerne. Så de er nødt til at tale nogenlunde klart og ikke benytte systemet på en lang række arbejdsområder, hvis det økonomisk og tidsmæssigt skal give gevinst,« siger han.

For Jette Voigt Jensen, der arbejder i Borgerservice i Odense Kommune, er det dog svært at se begrænsningerne i talegenkendelse. Hun er lam i højre side, og programmet til talegenkendelse har gjort, at hun ved journalskrivning i dag er lige så hurtig som sine kolleger.

»Jeg er utrolig glad for systemet, som har aflastet mig enormt. Tidligere havde jeg store smerter efter en arbejdsdag, men nu kan jeg klare langt mere,« fortæller hun.

Tre trin til talegenkendelse

  1. De talte ord skal indfanges. Erfaringerne fra Odense Kommune viser, at det gøres bedst med et ganske almindeligt headset, som man taler ind i.

  2. Ved hjælp af en stor matematisk beregning, der kræver en vis computerkraft, skal programmet gennem fonologi og skjulte Markov-modeller for fonemerne genkende de danske sproglyde. Fonologien kan fortælle, hvordan ordet ‘mig’ bliver udtalt. I’et bliver på dansk udtalt snarere som et a, og det er her fonologien kan bruges.

  3. I sidste led udnytter talegenkenderen også sprogmodellen. På baggrund af de skjulte Markov-modellers sandsynligheder og sprogmodellens sandsynligheder findes den ordsekvens, som talegenkenderen tror mest på.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (12)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Jacob Nordfalk

Jeg vil være ret varsom med Nuance. De har opkøbt en stribe konkurrerence sprogteknologiske virksomheder, herunder SVOX, og det er mit indtryk at disse virksomheders produkter så lige så stille bliver lagt i graven for at kunne danne monopol på området og hæve priserne.

Se f.eks. http://svoxmobilevoices.wordpress.com/ , den er ikke blevet opdateret siden de blev opkøbt af Nuance i 2011, og der er intet sket med de rigtig fine offline SVOX-stemmer siden da, udover et par nødtørftige opdateringer til Android 4 / 4.1.

Til gengæld tilbyder Nuance nu en hundedyr dansk talesyntese der ikke fungerer off-line og som slutbrugere slet ikke kan købe, i stedet skal udviklerne købe den (dyrt) pr app.

Den webserver som SVOX-stemmerne hentes ned fra efter installation er også periodevis nede, hvilket gør at SVOX crasher efter installation. I den forbindelse skrev jeg en del gange til Nuance for at høre hvad der skete med SVOX og om de ville svigte os kunder. Svaret kom en måned senere, hvor de sagde at de stadig "kunne se værdi i" talesyntese købt af slutbrugere. Intet andet og siden er der intet sket.

Så jeg gruer altså lidt for det firma...

  • 7
  • 0
Benni Bennetsen

Kan huske, at staten gav Tele Danmark en kæmpe portion penge for mange år siden til forskning i dansk talegenkendelse... Hvor blev resultaterne heraf egentlig af ?
Peter Jensen, så nærmere sig: lav det offentlig tilgængelig, så alle kan udnytte det. I og med at Google har norsk må vi 7-9-13 også være meget tæt på.. hvis ikke bare den norske er brugbar..

  • 0
  • 0
Andreas Kirkedal

Pengene gik til Prolog Development Center som udviklede et talegenkendelsessystem (ASR). Udviklingen er gået i stå og de sælger så vidt jeg ved Nuance produkter i dag. PDCs ASR bruges af DR til at lave undertekster så de kan opfylde deres public service forpligtelser over for f.eks. døve. Jeg synes også de burde lave en anonymiseret version af dataene offentlige. Alle penge og data ryger direkte til Nuisance så det her giver ikke en teknologisk førerrolle.

  • 1
  • 0
Morten Højfeldt Rasmussen

Nuance er ikke den eneste spiller på det danske marked (men sikkert den største på talegenkendelsesmarkedet). Firmaer som Mikro Værkstedet, eFaktum, LingApps og ScanDis leverer dansk talesyntese, som ikke er baseret på Nuances syntese. På talegenkendelsessiden er der f.eks. eFaktum og SpeechOp (mit eget firma) som ikke benytter Nuances genkender (Max Manus benytter også Nuances).

  • 0
  • 0
Jens Otto Kjærum

Lidt oplysning om taleteknologi på dansk.
Generelt skal man huske at der er stor forskel på tale-til-tekst (talegenkendelse ASR) og tekst-til-tale(stemme/oplæsning/talesyntese TTS), ofte blandes disse sammen til stor forvirring

TDC: De penge TDC i sin tid fik var til udviklingen af talesystese. Den findes stadig og sælges af Mikroværkstedet under navnet Carsten.

Dictus: De penge PDC/Dictus fik(vandt) til talegenkendelse var til udvikling af simultantekstning af direkte nyheder på DR og TV2. Denne tjeneste findes stadig og udvides netop i denne tid til at omfatte samtlige nyhedsudsendelser og omkring nytår er det planen at alle DR1 og DR2 programmer skal tekstes for hørerhæmmede. Det som ikke kan tekstes før udsendelsen, tekstes live med talegenkendelse (teksten ruller mærkeligt på skærmen). Standard talegenkendelsesprogrammet Dictus var et krav fra statens side for at støtte simultantekstning, resultatete skulle stilles til rådighed for alm. danskere, på alm. computere til en alm. pris (100 euro). Dictus er efterfølgende kommet i både version 2 og 3. Version 4 (64-bit) kommer i næste uge på IKT messen i Nyborg. PDC/Dictus har også bistået Nuance med at lave dansk talegenkendelse på mobil platform så Dragon dictation (iOS) er mulig på dansk og Dictus Android kan købes på Google Play.

Prof. talegenkendelse til virksomhedder, stat og kommuner er i rivende udvikling i disse år og flere store spillere har meldt sig på markedet ¨så der er flere leverandører at vælge imelllem: Max Manus, PDC/Dictus, IBM, KMD. Dog findes der pt. kun en basisteknologi leverandør der har genkendere som kan genkende dansk, nemlig Nuance; SpeechMagic, Dragon dictation, NuanceSR9, Vocon. Der har været en del forsøg i Skandinavien på at lave egne talegenkendere, men ingen af dem jeg kender til har til dato med succes kunnet lave interaktiv talegenkendelse med tilstrækkelig genkendelseskvalitet til at det kan bruges. Man skal være ydmyg overfor opgaven, men byder gerne nye spillere velkomne hvis de har genkendere som virker, er åbne for tilpasning af sprogressourcerne og samtidig er billige :- )

  • 0
  • 1
Per Hansen

@Jacob

Jeg deler fuldstændig din bekymring med NUANCE og monopol. Men jeg har også arbejdet for en dansk talegenkender i mere end 10 år, og det der er på markedet er langt fra godt nok. DICTUS er ganske enkelt noget uanvendeligt skrammel, og de øvrige løsninger er slet ikke anvendelige til almindeligt privat brug.

Det bedste der er sket er at NUANCE langt om længe er store nok til at gå ind og satse på dansk og det danske marked. Dragon er helt suveræn på verdensmarkedet, og du undervurderer fuldstændig hvor enorm en opgave det er at udvikle en talegenkender, der rent faktisk er brugbar på en PC løsning til direkte diktering på dansk.

Som jeg ser det kan kun NUANCE løfte den opgave pt.

At staten har kastet kroner ud i den blå luft de sidste 20 år til det her projekt beror alene på den mangel på viden, der skal til for at vurdere hvilke teknologier og produkter, der rent faktisk har en gang på jord.

Og så kan jeg i øvrigt garantere dig for at alle de guld og grønne skove besparelser de offentlige institutioner får i øjnene er rent blår. Jeg har benyttet Dragon siden version 5 og DICTUS siden version 1. Der er intet der slår et keyboard og et veltrimmet 10-finger system.

Derudover vil vi se et tiltagende antal sagsbhenadlere med stemmesvigt, fordi de voldsomt undervurderer den belastning stemmebåndet udsættes for ved stemmediktering.

Så pas på derude!

/Pa

  • 1
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize