Ugens it-profil måler salgsgas og skidtsnak på Wikipedia

1. marts 2013 kl. 11:421
Finn Årup Nielsen forsker i hjernedata og data fra sociale medier. Han mener, at udfordringerne ved dataanalyse er de samme som for 20 år siden, men nu har man blot opfundet nye fancy begreber som "Big Data" for dem.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Hvad arbejder du med?

»Jeg arbejder på DTU Compute, Danmarks Tekniske Universitet med repræsentation og analyse af komplekse data. Jeg har analyseret hjernedata og data fra sociale medier og været involveret i flere forskningsprojekter.

For tiden arbejder jeg inden for projektet "Responsible Business in the Blogosphere" hvor vi fra DTU i samarbejde med forskere fra Copenhagen Business School analyserer hvordan der tales om firmaer i sociale medier. Jeg har konstrueret en stemningsanalyse-metode til tekst, så vi kan få en grov måling for hvor god eller dårlig omtale et firma har.

Vores seneste projekt er en udvidet version af Wikipedia's overvågningsliste for firmaer som i øjeblikket er tilgængelig fra http://rb.imm.dtu.dk/.

Artiklen fortsætter efter annoncen

Vi kører stemningsanalyse af ændringerne på Wikipedia for de sider, der har forbindelse til firmaer. Vi kan detektere positive og negative brugere, og undersøger vi det nærmere, kan vi se, at nogle af de positive brugere sandsynligvis er ansatte i firmaerne.

I et andet projekt er jeg med fire andre forskere rundt om i verden i gang med at opsummere forskning omkring Wikipedia. Jeg har aldrig mødtes med dem fysisk. Vores samarbejde foregår i ‘skyen’ med Skype, Joinme, Dropbox og en åben semantisk wiki til at holde styr på de mange forskningsartikler: Et science 2.0-projekt!«

Hvilke it-udfordringer sidder du med i hverdagen?

»I forskning ligger skemaet ikke nødvendigvis fast når man begynder at udvikle. Hvilke data man har og kan indsamle finde man ud af hen af vejen. Det er en udfordring af finde fleksible databaser der samtidig kan holde store datamængder og nemt kan benyttes til data-analyse.

Artiklen fortsætter efter annoncen

Da jeg begyndte inden for dataanalyse tilbage i 1990'erne kunne man bruge tid på at konstruere programmer til gradvist at læse data ind i hukommelsen, samtidig med at man reducerede data Man kunne også vente i lang tid på at ens algoritme, et kunstigt neural netværk, fik trænet sig selv op. Computere er blevet større og hurtigere men udfordringerne er stadig de samme, for vi har blot fået større datasæt og et nyt fancy begreb "Big data".«

Hvad bruger du Version2 til?

»Jeg opdaterer mig om generelle it-nyheder om især Linux og sikkerhed. Jeg læser som regel også debatten, og deltager hvis jeg har tid.«

Har du en yndlingsblog på Version2?

Artiklen fortsætter efter annoncen

»Jeg følger gerne Poul-Henning Kamps blog og læser med en vis grad af skadefryd hans afmonteringer af Rejsekortet, eValg og it-tryllesovs. Jeg kigger også Peter Tofts Linux-nørderi igennem.«

Hvad vil du gerne læse mere om?

»‘Intelligent’ databehandling med matematisk-statistiske metoder af store datasæt kommer nok til at spille en større og større rolle i fremtidens it-systemer. Sådanne metoder vil sprede sig til store dele af service-sektoren: en stor del af bankfolks og lægers arbejde er jo blot meget vidende og intelligent databehandling.

Version2 kunne hjælpe med at skabe bro mellem informationsteknologi og matematisk modellering. Ved at fokusere mere på sidstnævnte. Søger man på "machine learning", "tekstmining", "data mining" og "naive bayes" hos version2.dk får man ganske vist nogle hits, men ikke specielt mange i forhold til en søgning på "MySQL".«

1 kommentar.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
1
1. marts 2013 kl. 13:25

Jeg kan se redaktionen har puttet pang på overskriften. :-)

Det kan måske være lidt svært at navigere rundt på http://rb.imm.dtu.dk, så et eksempel kan være på sin plads: På http://rb.imm.dtu.dk/base/c/Carlsberg ses det at "Edwardx" brugeren før jul 2012 fjerner tekst i forbindelse "Superior Taste Award" fra Wikipedia's "Carlsberg Group" artiklen (redigeringer med dybrød farve), hvilket resulterer i det største fald i Carlsberg's Wikipedia stemning sådan som vi måler den. På hans brugerside beskriver Edvardx sig som en person med interesse for "Food and drink awards" og nævner i Wikipedia's diff-tekst at "Superior Taste Award(s) ... are pay-to-enter and non-competitive". Så brugeren er altså skeptisk overfor denne pris som Carlsberg har modtaget/"købt" og mener nok ikke den er tilstrækkelig lødig til at stå i Carlsbergs Wikipedia artikel.

Skål!