DTU-forsker afkoder Twitter-beskeder med 1.200 linjer Python-kode

Twitter-beskeder og blog-indlæg har stor betydning for, hvordan virksomheders omdømme ser ud online. Danske forskere arbejder på at skabe et digitalt stemningsbarometer ud fra syndfloden af oplysninger online.

Hvad enten en virksomhed opfører sig socialt ansvarligt eller som en miljøforbryder, skal der nok blive skrevet om det via nettets underskov af blogs, wiki'er og Twitter-feeds.

Derfor arbejder et hold af forskere på CBS og DTU på at kunne aflæse virksomheders ry og omdømme alene ud fra de bidder af tekst, der skrives om dem for eksempel på blogs og gennem Twitter.

Idéen med denne form for sentiment analysis, som det hedder ? eller stemningsanalyse på modersmålet ? er at kunne give et billede af, om der skrives godt, skidt eller begge dele om en virksomhed ude på det store, ukontrollerbare net.

»Blandt vores ideer er at kigge på firmaer med et sædvanligvis godt image, Novo Nordisk og Novozymes til eksempel, overfor firmaer der ofte døjer med deres image, Shell for eksempel,« forklarer forsker ved DTU Informatik Finn Årup Nielsen i en mail til Version2.

Forskningsprojektet bærer navnet Responsible Business in the Blogosphere og skal forsøge at kortlægge, hvordan en virksomheds ry som ansvarlig på områder som miljø og sociale forhold bygges op i den virtuelle verden gennem blog-indlæg, wiki'er og Twitter-beskeder.

Forskernes hypotese er, at selvom denne opbygning af en virksomheds omdømme i online-universet sker uden for dens egen kontrol, kan det lade sig gøre at forudse bestemte mønstre i online-kommunikationen.

Dermed bliver det muligt at måle sig frem til, hvilken betydning de mange blogs og Twitter-beskeder kan have på opbygningen af en virksomheds omdømme.

1.200 linjer Python og SQLite
Finn Årup Nielsen står bag programmet og algoritmen, der analyserer Twitter-beskeder og bruger dem til at pege nålen i den rigtige retning på et stemningsbarometer.

Selve programmet beløber sig til knap 1.200 linjer kode skrevet i programmeringssproget Python oven på databasen SQLite.

Algoritmen baserer sig på en omkring 1.000 ord lang liste, som Finn Årup Nielsen selv har sammensat. Hvert af ordene har tilknyttet en værdi ? eller valens ? mellem minus fem, der står for bandeord og ord som 'fraud', 'bad', 'anger' og 'warning', og plus fem angiver positive ord som 'win', 'love' og 'breathtaking'.

»Valenserne of ordene i hver enkelt tweet bliver summeret sammen, og hvis den samlede valens for tweet'en er positiv, siger vi blot, at den tweet er positiv (keine hexerei),« forklarer Finn Aarup Nielsen.

Ifølge normale stemningsanalyser af for eksempel financielle blogs rammer den form for stemningsanalyse plet i omkring 75 procent af tilfældene, hvis der er maskin-læring med i spillet, og programmet dermed er i stand til at 'blive klogere' undervejs.

Finn Aarup Nielsen fortæller, at der typisk opstår usikkerheder omkring negeringer såsom 'not bad'. Den simple algoritme ser blot 'bad' og klassificerer den som negativ, hvilket også giver besvær med at tolke beskeder med en ironisk tone.

Aflæste Twitter-beskeder fra klimatopmødet
Aktuelt har metoden været i brug under det netop afsluttede klimatopmøde i København, COP15, hvor Finn Aarup Nielsen satte programmet til at kværne Twitter-beskeder med reference til COP15 igennem.

»I forbindelse med COP15 er det faktisk lidt for forsimplet at tænke på tweets som blot enten positiv eller negativ,« fortæller Finn Aarup Nielsen.

Han nævner eksempler med folk, der har tweet'et negativt om maden under topmødet, eller brokker sig over, at visse kontroversielle politikere havde meldt deres ankomst til COP15.

»Sådanne tweets har stemning om COP15-mødets organisation, men ikke om de visioner og mål der diskuteres. Så skal de så tælles med?,« skriver Finn Aarup Nielsen.

Ifølge DTU-forskeren vil programmet og den underliggende algoritme kunne forbedres med maskinlæring, hvor programmet løbende kan forbedre evnen til at klassificere beskeder. Derudover kan stemningsanalysen kombineres med emneanalyse, hvor programmet prøver at finde frem til, hvad der bliver talt om i for eksempel en Twitter-besked.

Den foreløbige 'dom' over COP15-topmødet kan ses på COP15 Twitter-barometeret under fanebladet Eksterne links.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere