Hvor er teknologien, når man skal bruge den?

Jeg har i forbindelse med en opgave, jeg er ved at skrive, lavet nogle interviews med et par af mine kolleger. Det er der kommet mange interessante guldkorn ud af, men for virkelig at få glæde af materialet, har jeg været igennem den langsommelige proces med at transkribere 3 x ½ times interviews (optaget med den udmærkede 6-kroner-app iDictaphone) på den 'gode', gammeldags vis. Og det tager LANG tid.

Her kunne jeg godt have brugt noget tale-til-tekst-teknologi, men fandt ikke lige noget, der umiddelbart var tilgængeligt. Google har jo indbygget talegenkendelse i Android, så jeg kunne måske have bedt min iPhone om at afspille optagelserne i nærheden af min bedre halvdels Android-baserede smartphone med en passende (eventuelt hjemmelavet) applikation startet, men så vidt jeg har kunnet læse mig frem til, er der pt. ikke understøttelse for genkendelse af dansk tale.

Jeg kan dog godt se masser af interessante anvendelsesmuligheder alene med genkendelse af engelsk tale. Der er utrolig meget information, som ikke deles i virksomheder, alene af den grund, at der ikke er nogen, der har tid til at skrive det ned. For et par år siden havde jeg fornøjelsen af at læse transkriptioner af nogle kunde-interviews, og jeg syntes, det var slående hvor mange flere pointer, man kan få ud af den samme samtale ved at lade flere forskellige personer i en virksomhed læse med, end ved blot at lade en enkelt lave referat af samtalen - det er f.eks. ikke sikkert, at sælgeren, udvikleren og produktchefen hæfter sig ved de samme pointer.

Der er også utroligt mange spændende podcasts tilgængelige derude, som jeg gerne ville høre, men ikke har tid til - det bliver mest på løbe- eller cykelture, at jeg har lejlighed til den slags - men hvor jeg ville kunne skimme en betydeligt større mængde podcasts ved at konvertere disse til tekst og lave et hurtigt gennemsyn af, om der var tilstrækkeligt meget interessant information til at det kunne betale sig at lytte til dem.

Men er teknologien moden nok endnu?

Kommentarer (9)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Tore Green

Jeg tror det ville være en overdrivelse at kalde teknologien moden. Men eksemplet med tale-søgning på android viser at der sker en del fremskridt.

Mit indtryk er at en god genkendelse stadig kræver "træning" af softwaren til den konkrete person og/eller at det talte vedrører et bestemt domæne som gør "udfaldsrummet" mere kendt (f.eks. diktering af lægejournaler). De to begrænsninger passer ikke så godt med at transkribere dine interviews.

Der findes også tale-genkendelse på dansk selvom vi er "hæmmet" af at være et lille sprogområde. Se f.eks. http://www.pdc.dk/dictus/

  • 0
  • 0
#2 Morten Jensen

Den bedste open source engine på markedet hedder CMU Sphinx. Julius og HTK skulle være gode også, men dem har jeg ikke erfaring med. Min erfaring er, at det stadigvæk er svært at få høj succesrate med diktat. Jeg har ærgret mig over det ligesom du :)

  • 0
  • 0
#3 Andreas Kirkedal

Talegenkendelse(ASR) er som regel 70-80% korrekt i eksperimenter med oplæst tale. ASR er desværre ikke særlig robust overfor baggrundsstøj, så hvis ordforrådet der skal genkendes ikke er så stort - f.eks. domænet for lægejournaler - så kan genkendelsen blive mere robust. Genkendelsen af spontantale er ikke så høj.

Specielt for dansk har man problemer med at genkende ord der er adskilt ved specielle danske fænomener - især "stød"(http://da.wikipedia.org/wiki/St%C3%B8d_(sproglyd)). Desværre er talegenkendelse baseret på mindre segmenter, hvor det ikke nemt at tage hensyn til stød.

Loquendo har lavet en talegenkender der fungerer ret godt, men den koster.

  • 0
  • 0
#4 Peter Nørregaard Blogger

Tale til tekst er lige omkring hjørnet. Siden ca. 1985 har det været et spørgsmål om 2-3 år før den var der. Det er det nok stadigt :-)

Noget andet jeg savner, mens vi venter, er en afspilningsfunktion på en mobil enhed, der sætter hastigheden op. Man kan faktiske godt forstå talen når den afspilles med dobbelt hastighed.

Og så et, relateret, hip til Harddisken på P1: Den er godt nok blevet noget lang i spyttet at lytte til, også som podcast: En fyr siger noget på engelsk, Anders Høeg Nissen eller Henrik Føhns oversætter derefter det, vi lige har hørt, til dansk - tydeligt og langsomt. Her er der klart behov for dobbelt afspilningshastighed. Kan vi i øvrigt ikke bare få deres manuskript i stedet?

  • 0
  • 0
#6 Dorte Toft

Danske politikere mente, at taleteknologi (tekst til tale/talegenkendelse) var noget for handicappede, hvorfor man tog nogle begrænsede midler fra handicap-puljen til finansiering. Politikerne påstod, at markedskræfterne ville sikre, hvad der ellers skulle til!

Det var så den socialdemokratiske regering, men blå front har heller ikke været klogere.

Sært, at der i DK altid har været stor omsorg om det danske sprog, når det vedrørte bøger, teater og film - hele den gamle verden. Ingen fattede, hvor handicappede vi i det lille sprogområde bliver, efterhånden som de store sprogområder får forbedret deres digitale sprogteknologi, og de poster masser af penge i det (også fra regeringsside). Perfekt er det ikke, men selv med små skridt når man efterhånden længere og længere.

Jeg er ikke længere opdateret på, hvorledes det går med det danske, men ligesom Anne-Sofie og flere her savner jeg nærmest intuitivt sprogteknologi på flere områder.

  • 0
  • 0
#7 Thomas Wittenburg

TTT teknologi er helt klart et nicheprodukt, men der findes faktisk nogle ret habile stykker software derude. Jeg fik sidste år demonstreret softwaren Max Manus, http://www.maxmanus.dk/dk/teknologier-og-undervisning/talegenkendelse/, som er udviklet primært til brug for læger, der dikterer deres journalopdateringer. Finten er desværre, at man, inden man kan bruge softwaren, skal træne den. Så kan du lige lægge 5-30 minutters ekstra tid til hvert interview, afhængig af sprogkompleksiteten. Men det vil utvivlsomt spare dig for en masse arbejde i sidste ende.

Problemet er nok, som med så meget andet, at DK er så latterligt et lille marked, at det aldrig bliver rigtig aktuelt at lave noget godt alle kan bruge. Men for læger, og andre faggrupper der bruger transkribering meget, journalister eksempelvis, og som kan betale, er der fine muligheder.

//Thomas

  • 0
  • 0
#8 Andreas Kirkedal

Det bliver ikke bedre af at der kun findes én kandidatgrad indenfor sprogteknologi i Danmark: http://itogkognition.ku.dk - fokus på kognition. Der findes ikke nogen ekspertise indenfor taleteknologi. Resten af overbygningerne blev nedlagt 2007-2009 mens jeg læste BA i engelsk og datalingvistik på CBS, så jeg måtte fortsætte i udlandet. Her er der ikke noget fokus på dansk.

  • 0
  • 0
Log ind eller Opret konto for at kommentere