Big Data kan - måske - gøre meningsmålinger mere præcise

Vi bombarderes med meningsmålinger op til et valg, men de laves stadig ved at spørge en tilfældig gruppe af mennesker i stedet for at bruge Big Data til at mindske usikkerhederne.

Lige siden folketingsvalget blev udskrevet, er vi dagligt blevet bombarderet med tre eller flere meningsmålinger, som har vist et stadig tættere løb mellem de to politiske fløje om de 90 mandater, der skal til et flertal. Men meningsmålingerne har en indbygget usikkerhed, som er større end forskellen mellem de to blokke.

Samtidig har meningsmålinger ramt ved siden af i eksempelvis forudsigelsen af amerikanske præsidentvalg og senest valget i Storbritannien. Derfor kunne det være nærliggende at se på, om de moderne værktøjer til dataanalyse kunne bruges til at få et mere præcist billede af, hvor vælgerne vil sætte deres kryds.

Meningsmålinger laves i dag ud fra interviews med en tilfældigt udvalgt gruppe af personer. Typisk skal der mellem 1.000 og 2.000 personer til for at få en gruppe, der er stor nok til, at man statistisk får den usikkerhed på cirka to procent, som er standard i meningsmålinger.

I praksis kan det foregå som telefoninterviews eller internetbaserede spørgeskemaer, men begge metoder kan give problemer i forhold til at være sikker på at få et repræsentativt udsnit af vælgerne.

»Man sorterer de knap ti procent af befolkningen fra, som har stemmeret, men ikke har internet, ved at bruge internetmålinger. Så det mener jeg er en væsentlig årsag til, at internetmålingerne ikke er så præcise,« siger analysedirektør Anna Midtgaard Christensen af Voxmeter til Version2.

Internetmålingerne bygger desuden typisk på paneler, hvor folk selv har meldt sig til, og det betyder, at der er en overrepræsentation af vælgere, som er aktive på en bestemt måde på internettet.

Så tilfældigt som muligt

For analyseinstitutterne gælder det derfor om at prøve at kompensere for afvigelsen i forhold til den generelle befolkning, når der skal udvælges et udsnit til en meningsmåling.

»Man prøver at veje det på plads i forhold til køn, alder, geografi og andre demografiske parametre, men man kan jo ikke veje i forhold til holdninger,« forklarer Anna Midtgaard Christensen.

Hos Voxmeter anvender man derfor metoden med simpel tilfældig udvælgelse af borgere til telefoninterview. Så længe man er sikker på, at de personer, der deltager, er tilfældigt udvalgt, så kender man også usikkerheden.

Problemet er, når denne usikkerhed er så stor, at meningsmålingen reelt ikke kan give mere end en indikation af et øjebliksbillede af stemningen i befolkningen.

Der er flere fejlkilder ved meningsmålinger. Den ene er intentioner i forhold til adfærd, altså at man sætter krydset et andet sted, når man står i stemmeboksen, end når man bliver spurgt i et interview. Den effekt har tidligere været set med eksempelvis Dansk Folkeparti tilbage i 1990'erne.

En anden fejlkilde er skævhed i udvælgelsen, som er dén, analysefirmaerne bruger mest energi på at minimere. Problemet er, at den bedste metode til at minimere skævheden er at spørge flere personer, og det koster. Det kan således blive dyrt at reducere usikkerheden fra to til ét procentpoint.

Derfor kunne det være interessant at se på, om der er andre datakilder, som kunne trækkes ind i analysearbejdet.

Facebook-sarkasme forvirrer

Flere virksomheder arbejder med at analysere eksempelvis indhold fra sociale medier til at lodde modtagelsen af eksempelvis et nyt produkt. Men værktøjerne har endnu ikke helt fundet vej til valgprognoserne endnu.

»Der vil være nogle særlige udfordringer ved politiske holdninger, fordi det eksempelvis kan være sværere at fortolke, om noget er sarkastisk,« siger innovationschef Anders Quitzau fra IBM til Version2.

Sarkasme giver problemer for softwarealgoritmer, som kan vurdere, om en tekst er negativ eller positiv. Det kan være vanskeligt for menneskelige læsere at afkode sarkasme i statusopdateringer eller tweets, og algoritmerne kan have endnu vanskeligere ved det. Dermed får man introduceret en ny fejlkilde.

»Man kan måske afkode, om en person stemmer til højre eller venstre. Men altså ikke nødvendigvis, hvad personen stemmer nede i stemmeboksen,« siger Anders Quitzau.

IBM har tidligere brugt Big Data til at forsøge at forudsige Oscar-vindere eller vindere af tennisturneringen i Wimbledon. Det samme har konkurrenten Microsoft, som også har et par bud til, hvordan Big Data kunne hjælpe med valgprognoser.

»Hvis man så på tidligere valgresultater og sammenlignede med partiernes eksponering i medierne, hvilken årstid var det, og andre faktorer der kan have påvirket udfaldet, så kunne man korrelere de ustrukturerede data med de strukturerede data fra spørgeskemaerne,« foreslår Lars Bo Granath, forretningsansvarlig for Information Platform hos Microsoft, til Version2.

Han foreslår også at prøve at måle på, hvilke emner der har været oppe i tiden, eller tage de samfundsøkonomiske forhold ind i analysen.

»Hvis for eksempel der nogen emner, der har været mere hotte, og som måske taler bedre til visse partier. Hvad er folks 'top of mind' lige nu - er de bange for at miste deres arbejde, eller er de bange for at blive syge? Hvad er det for nogle ting, der påvirker os?« siger Lars Bo Granath.

Kan supplere spørgeskemaer

En væsentlig udfordring er at finde frem til, hvilke data det er relevant at inddrage i analysen.

»Hvilke datakilder kan man få, og hvor relevante er de? Der kan være nogle ting som eksempelvis, at bilejere traditionelt har været mere 'blå', så man kunne inddrage mængden af biler. Men det kan også være, at det var en sandhed, der var mere rigtig for 20 år siden,« siger uddannelseschef Kaare Brandt Petersen fra SAS Institute til Version2.

Derfor indebærer flere datakilder altså også et arbejde med at vurdere, hvad det er, de kan bidrage med.

Til gengæld kan Big Data-metoderne være en billig fremgangsmåde, fordi en del af arbejdet kan genbruges fra analyse til analyse.

»I Big Data er det at samle data ind det omkostningstunge, som vi ikke ønsker at gentage. Spørgeskemaer koster det samme for hver analyse. Så det er ikke oplagt med Big Data, hvis der skal samles data ind hver gang, men man kunne supplere med nogle andre typer data,« siger Kaare Brandt Petersen.

Han peger på, at én af fordelene ved en Big Data-tilgang vil være, at man kan indsamle en meget stor mængde data i form af eksempelvis artikler fra medierne og opdateringer fra sociale medier.

»Men det er ikke alle, der er på Facebook, og der er en stærk bias i forhold til, hvem der skriver på Facebook, så det kræver mere analyse bagefter,« siger Kaare Brandt Petersen.

Derfor holder analysefirmaerne sig også indtil videre til den velkendte model, som har været brugt i et halvt århundrede, fordi det vil være ukendt territorium at skrue nye modeller med nye usikkerheder sammen.

»Personligt tror jeg ikke på det. Jeg har aldrig set noget, der skulle sandsynliggøre, at man kunne bruge det. Man kommer lidt over i noget, hvor det begynder at ligne alkymi, hvor man ikke bruger ressourcerne på lave en tilfældig stikprøve, men prøver en masse andet,« siger Anna Midtgaard Christensen fra Voxmeter.

I stedet er det ifølge Anna Midtgaard Christensen vigtigt at være opmærksom på usikkerhederne, når meningsmålingerne formidles, samt at en meningsmåling ikke er det samme som en prognose af valgresultatet, men kun et øjebliksbillede.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (16)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Ivo Santos

Hvad med de hjemmeløse som hverken har telefon eller internet, de bliver jo sådan set heller ikke spurgt, og de er vel heller ikke med i overvejelserne når det kommer til målinger. Når det er sagt, så tror selv på at big data kan kan give et korrekt resultat.

Jeg gætter på at hvis man spørger ca. 1/3 af befolkningen kan man nok komme frem til et resultat, der er mere korrekte, og det er inklusiv de hjemmeløse.

Erik Cederstrand

Hvad med at vælge én bestemt dag, og så invitere alle stemmeberettigede danskere til at skrive ned på et stykke papir, hvem de ville stemme på. Det må give det mest retvisende billede.

Det vil nok give nogle praktiske problemer at samle så mange stykker papir sammen og tælle op. Måske kunne man tage gymnastiksale, forsamlingshuse osv i brug.

Martin Kofoed

Nemlig helt at afskaffe meningsmålingerne, og det dermed forbundne hysteri og spekulation i farver.

Helt enig. Hvis man opfatter blokpolitik som noget negativt, hvad så med om medierne gik forrest i at afskaffe den? De gør reelt det modsatte. Og det fordummer tingene ned på niveau med en Brøndby/FCK-kamp, desværre.

Hvis man ser på den førte politik, så ville det mest logiske være en regering bestående af Venstre og Socialdemokratiet. De to partier er stort set identiske. Hvorfor man ophæver de mikroskopiske forskelle til at resultere i to helt forskellige farver, kan kun være ud fra et ønske om at skabe en fodboldstemning, hvor det ene holds tilskuere råber lidt mishagsytringer efter det andet holds tilskuere. Det er bedre TV end at beskæftige sig med indholdet.

Niels Müller Larsen

Er det ikke kun redaktørerne, der betaler for meningsmålingerne, som tror på dem?
Man kunne også anskue dem konspirationsteoretisk. Medierne bruger dem til at påvirke vælgerne. Blå medier blåt flertal i målingerne, og omvendt. Redaktøren får vel hvad han betaler for, eller ...?

Malthe Borch

Artiklen påpeger selv, at man skal finde nye datakilder for overhovedet at kunne tale om big data. Men der gives ikke nogen eksempler på mulige kilder, som på nogen måde kunne være relevante her. Hvad er pointen med artiklen? At det ville være muligt at analysere på data, hvis det fandtes? Det siger jo ligesom sig selv.

Anders Boje Larsen

Jeg har læst flere videnskabelige artikler om dette område og alle opnår bedre eller de samme resultater end meningsmålingerne.
Sarkasme nævnes som et problem, men for lang tid siden er der taget hånd om dette bla. af Cornell University der med 83% nøjagtighed kan på vise om et tweet er sarkastisk eller ej. Kilde
Der næves andre fejlkilder, men jeg er ret overbevist om at netop at 100.000-250.000 post (Facebook/Twitter) kan eliminerer sarkasme m.m. og opnå et bedre resultat end 1.033 telefoninterviews Voxmeter. Endda med meget simple principper.

Jan Heisterberg

Jeg tror artiklens hensigt var seriøs.

Kort inde i teksten støder jeg på formuleringen "tilfældig udvalgt".
Det er forhåbentlig en journalistisk fejlformulering.
Mon ikke der skulle stå "repræsentativt udvalgt".

Og det er vel kernen: hvordan gør man det ? Og hvordan, som i TV-kanalernes tilfælde, gør man det over 23 dage med ca.2.000 respondenter hver gang (46.000 personer, hvortil kommer no-reply's).

Selv blev jeg opfordret, og fik dagen efter så en SMS. Men da jeg forsøgte at svare, så havde de fået nok svar.
Det betyder, at det var de hurtige, de fanatiske, de ....., som blev talt.
Var de repræsentative ?

Lad os bare tage undersøgelserne for hvad de er: journalistisk spin.

Vagn Sønderup

Meningsmålinger op til et valg gør at partierne efter min mening, begynder at overbyde hinanden alt efter hvordan målingerne er. Derved sker der det at de kommer væk fra hvad der egentlig er vigtig. Men begynder at byde over med skat eller mangel på samme. Socialt velfærd osv. I stedet for nogle grundlæggende ideer om hvordan landet skal styres. Og det er jo heller ikke bare op til valget disse meningsmålinger bruges på denne facon. Min mening om politikere er. De er kun tro mod den taburet de er klistret til.

Log ind eller Opret konto for at kommentere