Ugens it-profil måler salgsgas og skidtsnak på Wikipedia

Finn Årup Nielsen forsker i hjernedata og data fra sociale medier. Han mener, at udfordringerne ved dataanalyse er de samme som for 20 år siden, men nu har man blot opfundet nye fancy begreber som "Big Data" for dem.

Hvad arbejder du med?

»Jeg arbejder på DTU Compute, Danmarks Tekniske Universitet med repræsentation og analyse af komplekse data. Jeg har analyseret hjernedata og data fra sociale medier og været involveret i flere forskningsprojekter.

For tiden arbejder jeg inden for projektet "Responsible Business in the Blogosphere" hvor vi fra DTU i samarbejde med forskere fra Copenhagen Business School analyserer hvordan der tales om firmaer i sociale medier. Jeg har konstrueret en stemningsanalyse-metode til tekst, så vi kan få en grov måling for hvor god eller dårlig omtale et firma har.

Vores seneste projekt er en udvidet version af Wikipedia's overvågningsliste for firmaer som i øjeblikket er tilgængelig fra http://rb.imm.dtu.dk/.

Vi kører stemningsanalyse af ændringerne på Wikipedia for de sider, der har forbindelse til firmaer. Vi kan detektere positive og negative brugere, og undersøger vi det nærmere, kan vi se, at nogle af de positive brugere sandsynligvis er ansatte i firmaerne.

I et andet projekt er jeg med fire andre forskere rundt om i verden i gang med at opsummere forskning omkring Wikipedia. Jeg har aldrig mødtes med dem fysisk. Vores samarbejde foregår i ‘skyen’ med Skype, Joinme, Dropbox og en åben semantisk wiki til at holde styr på de mange forskningsartikler: Et science 2.0-projekt!«

Hvilke it-udfordringer sidder du med i hverdagen?

»I forskning ligger skemaet ikke nødvendigvis fast når man begynder at udvikle. Hvilke data man har og kan indsamle finde man ud af hen af vejen. Det er en udfordring af finde fleksible databaser der samtidig kan holde store datamængder og nemt kan benyttes til data-analyse.

Da jeg begyndte inden for dataanalyse tilbage i 1990'erne kunne man bruge tid på at konstruere programmer til gradvist at læse data ind i hukommelsen, samtidig med at man reducerede data Man kunne også vente i lang tid på at ens algoritme, et kunstigt neural netværk, fik trænet sig selv op. Computere er blevet større og hurtigere men udfordringerne er stadig de samme, for vi har blot fået større datasæt og et nyt fancy begreb "Big data".«

Hvad bruger du Version2 til?

»Jeg opdaterer mig om generelle it-nyheder om især Linux og sikkerhed. Jeg læser som regel også debatten, og deltager hvis jeg har tid.«

Har du en yndlingsblog på Version2?

»Jeg følger gerne Poul-Henning Kamps blog og læser med en vis grad af skadefryd hans afmonteringer af Rejsekortet, eValg og it-tryllesovs. Jeg kigger også Peter Tofts Linux-nørderi igennem.«

Hvad vil du gerne læse mere om?

»‘Intelligent’ databehandling med matematisk-statistiske metoder af store datasæt kommer nok til at spille en større og større rolle i fremtidens it-systemer. Sådanne metoder vil sprede sig til store dele af service-sektoren: en stor del af bankfolks og lægers arbejde er jo blot meget vidende og intelligent databehandling.

Version2 kunne hjælpe med at skabe bro mellem informationsteknologi og matematisk modellering. Ved at fokusere mere på sidstnævnte. Søger man på "machine learning", "tekstmining", "data mining" og "naive bayes" hos version2.dk får man ganske vist nogle hits, men ikke specielt mange i forhold til en søgning på "MySQL".«

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Finn Aarup Nielsen

Jeg kan se redaktionen har puttet pang på overskriften. :-)

Det kan måske være lidt svært at navigere rundt på http://rb.imm.dtu.dk, så et eksempel kan være på sin plads: På http://rb.imm.dtu.dk/base/c/Carlsberg ses det at "Edwardx" brugeren før jul 2012 fjerner tekst i forbindelse "Superior Taste Award" fra Wikipedia's "Carlsberg Group" artiklen (redigeringer med dybrød farve), hvilket resulterer i det største fald i Carlsberg's Wikipedia stemning sådan som vi måler den. På hans brugerside beskriver Edvardx sig som en person med interesse for "Food and drink awards" og nævner i Wikipedia's diff-tekst at "Superior Taste Award(s) ... are pay-to-enter and non-competitive". Så brugeren er altså skeptisk overfor denne pris som Carlsberg har modtaget/"købt" og mener nok ikke den er tilstrækkelig lødig til at stå i Carlsbergs Wikipedia artikel.

Skål!

Log ind eller Opret konto for at kommentere
Jobfinder Logo
Job fra Jobfinder