Lige siden folketingsvalget blev udskrevet, er vi dagligt blevet bombarderet med tre eller flere meningsmålinger, som har vist et stadig tættere løb mellem de to politiske fløje om de 90 mandater, der skal til et flertal. Men meningsmålingerne har en indbygget usikkerhed, som er større end forskellen mellem de to blokke.
Samtidig har meningsmålinger ramt ved siden af i eksempelvis forudsigelsen af amerikanske præsidentvalg og senest valget i Storbritannien. Derfor kunne det være nærliggende at se på, om de moderne værktøjer til dataanalyse kunne bruges til at få et mere præcist billede af, hvor vælgerne vil sætte deres kryds.
Meningsmålinger laves i dag ud fra interviews med en tilfældigt udvalgt gruppe af personer. Typisk skal der mellem 1.000 og 2.000 personer til for at få en gruppe, der er stor nok til, at man statistisk får den usikkerhed på cirka to procent, som er standard i meningsmålinger.
I praksis kan det foregå som telefoninterviews eller internetbaserede spørgeskemaer, men begge metoder kan give problemer i forhold til at være sikker på at få et repræsentativt udsnit af vælgerne.
»Man sorterer de knap ti procent af befolkningen fra, som har stemmeret, men ikke har internet, ved at bruge internetmålinger. Så det mener jeg er en væsentlig årsag til, at internetmålingerne ikke er så præcise,« siger analysedirektør Anna Midtgaard Christensen af Voxmeter til Version2.
Internetmålingerne bygger desuden typisk på paneler, hvor folk selv har meldt sig til, og det betyder, at der er en overrepræsentation af vælgere, som er aktive på en bestemt måde på internettet.
Så tilfældigt som muligt
For analyseinstitutterne gælder det derfor om at prøve at kompensere for afvigelsen i forhold til den generelle befolkning, når der skal udvælges et udsnit til en meningsmåling.
»Man prøver at veje det på plads i forhold til køn, alder, geografi og andre demografiske parametre, men man kan jo ikke veje i forhold til holdninger,« forklarer Anna Midtgaard Christensen.
Hos Voxmeter anvender man derfor metoden med simpel tilfældig udvælgelse af borgere til telefoninterview. Så længe man er sikker på, at de personer, der deltager, er tilfældigt udvalgt, så kender man også usikkerheden.
Problemet er, når denne usikkerhed er så stor, at meningsmålingen reelt ikke kan give mere end en indikation af et øjebliksbillede af stemningen i befolkningen.
Der er flere fejlkilder ved meningsmålinger. Den ene er intentioner i forhold til adfærd, altså at man sætter krydset et andet sted, når man står i stemmeboksen, end når man bliver spurgt i et interview. Den effekt har tidligere været set med eksempelvis Dansk Folkeparti tilbage i 1990'erne.
En anden fejlkilde er skævhed i udvælgelsen, som er dén, analysefirmaerne bruger mest energi på at minimere. Problemet er, at den bedste metode til at minimere skævheden er at spørge flere personer, og det koster. Det kan således blive dyrt at reducere usikkerheden fra to til ét procentpoint.
Derfor kunne det være interessant at se på, om der er andre datakilder, som kunne trækkes ind i analysearbejdet.
Facebook-sarkasme forvirrer
Flere virksomheder arbejder med at analysere eksempelvis indhold fra sociale medier til at lodde modtagelsen af eksempelvis et nyt produkt. Men værktøjerne har endnu ikke helt fundet vej til valgprognoserne endnu.
»Der vil være nogle særlige udfordringer ved politiske holdninger, fordi det eksempelvis kan være sværere at fortolke, om noget er sarkastisk,« siger innovationschef Anders Quitzau fra IBM til Version2.
Sarkasme giver problemer for softwarealgoritmer, som kan vurdere, om en tekst er negativ eller positiv. Det kan være vanskeligt for menneskelige læsere at afkode sarkasme i statusopdateringer eller tweets, og algoritmerne kan have endnu vanskeligere ved det. Dermed får man introduceret en ny fejlkilde.
»Man kan måske afkode, om en person stemmer til højre eller venstre. Men altså ikke nødvendigvis, hvad personen stemmer nede i stemmeboksen,« siger Anders Quitzau.
IBM har tidligere brugt Big Data til at forsøge at forudsige Oscar-vindere eller vindere af tennisturneringen i Wimbledon. Det samme har konkurrenten Microsoft, som også har et par bud til, hvordan Big Data kunne hjælpe med valgprognoser.
»Hvis man så på tidligere valgresultater og sammenlignede med partiernes eksponering i medierne, hvilken årstid var det, og andre faktorer der kan have påvirket udfaldet, så kunne man korrelere de ustrukturerede data med de strukturerede data fra spørgeskemaerne,« foreslår Lars Bo Granath, forretningsansvarlig for Information Platform hos Microsoft, til Version2.
Han foreslår også at prøve at måle på, hvilke emner der har været oppe i tiden, eller tage de samfundsøkonomiske forhold ind i analysen.
»Hvis for eksempel der nogen emner, der har været mere hotte, og som måske taler bedre til visse partier. Hvad er folks 'top of mind' lige nu - er de bange for at miste deres arbejde, eller er de bange for at blive syge? Hvad er det for nogle ting, der påvirker os?« siger Lars Bo Granath.
Kan supplere spørgeskemaer
En væsentlig udfordring er at finde frem til, hvilke data det er relevant at inddrage i analysen.
»Hvilke datakilder kan man få, og hvor relevante er de? Der kan være nogle ting som eksempelvis, at bilejere traditionelt har været mere 'blå', så man kunne inddrage mængden af biler. Men det kan også være, at det var en sandhed, der var mere rigtig for 20 år siden,« siger uddannelseschef Kaare Brandt Petersen fra SAS Institute til Version2.
Derfor indebærer flere datakilder altså også et arbejde med at vurdere, hvad det er, de kan bidrage med.
Til gengæld kan Big Data-metoderne være en billig fremgangsmåde, fordi en del af arbejdet kan genbruges fra analyse til analyse.
»I Big Data er det at samle data ind det omkostningstunge, som vi ikke ønsker at gentage. Spørgeskemaer koster det samme for hver analyse. Så det er ikke oplagt med Big Data, hvis der skal samles data ind hver gang, men man kunne supplere med nogle andre typer data,« siger Kaare Brandt Petersen.
Han peger på, at én af fordelene ved en Big Data-tilgang vil være, at man kan indsamle en meget stor mængde data i form af eksempelvis artikler fra medierne og opdateringer fra sociale medier.
»Men det er ikke alle, der er på Facebook, og der er en stærk bias i forhold til, hvem der skriver på Facebook, så det kræver mere analyse bagefter,« siger Kaare Brandt Petersen.
Derfor holder analysefirmaerne sig også indtil videre til den velkendte model, som har været brugt i et halvt århundrede, fordi det vil være ukendt territorium at skrue nye modeller med nye usikkerheder sammen.
»Personligt tror jeg ikke på det. Jeg har aldrig set noget, der skulle sandsynliggøre, at man kunne bruge det. Man kommer lidt over i noget, hvor det begynder at ligne alkymi, hvor man ikke bruger ressourcerne på lave en tilfældig stikprøve, men prøver en masse andet,« siger Anna Midtgaard Christensen fra Voxmeter.
I stedet er det ifølge Anna Midtgaard Christensen vigtigt at være opmærksom på usikkerhederne, når meningsmålingerne formidles, samt at en meningsmåling ikke er det samme som en prognose af valgresultatet, men kun et øjebliksbillede.