Kommentar: Big Data står til at vinde valgkampen i 2020

Illustration: FiveThirtyEight.com
Donald Trumps sejr i det amerikanske præsidentvalg kom bag på de fleste analytikere. Det ser ud til at være tid til at sende den gammeldags meningsmåling på pension.

Donald J. Trump kunne onsdag morgen 8:45 gå på podiet og holde sin sejrstale som 'president-elect'. Det skete efter sejre i flere delstater, hvor resultatet kom som en overraskelse for de fleste analytikere, der havde studeret meningsmålingerne i dagene, ugerne og månederne op til valgdagen.

Så hvis du har aktier i firmaer, der specialiserer sig i Big Data, tillykke!

Forsøget på at forudsige et valgresultat bygger hovedsageligt på meningsmålinger. De bliver i lidt mere avancerede analyser sat i forhold til udviklingen i tidligere valgkampe, økonomiske nøgletal og demografi.

Men meningsmålingerne kommer til kort. Det så vi i Danmark ved det overraskende gode resultat for Dansk Folkeparti ved det seneste Europaparlamentsvalg og ved Brexit-afstemningen.

Få personer bliver spurgt

En del af forklaringen i USA ligger i, at mange meningsmålinger blev foretaget på nationalt niveau. Typisk med knapt 2.000 personer fordelt inden for demografiske og geografiske grupper, der nogenlunde skulle repræsentere befolkningen.

Det er en metode, der virker udmærket, når man arbejder med en forholdsvis homogen befolkning. Jo mere varieret befolkningen er, jo større bliver usikkerheden, fordi man har færre personer i sine målinger, der skal repræsentere en stor befolkningsgruppe.

Derudover er metoden bygget på, at man kan gøre antagelser om befolkningen ud fra demografi. Eksempelvis regnede Clinton-lejren formentligt med, at hvide kvinder med en videregående uddannelse nok i overvejende grad ville sætte kryds ved Clinton. Ifølge CNN's exit-poll fik Clinton blot 51 procent af denne gruppe, mens Trump fik 45.

Partierne arbejder med strategier, som blandt andet bygger på, at de nogenlunde kan forudsige, hvordan bestemte befolkningsgrupper vil stemme. Det er vigtigt, fordi der ikke er grund til at bruge dyre kampagnepenge på vælgere, der allerede har besluttet sig.

I denne valgkamp indikerer Clintons nederlag i Wisconsin, Michigan og Pennsylvania, at modellen ikke stemte overens med virkeligheden, og der var ingen stensikre tegn i meningsmålingerne, der gav Clinton-lejren grund til at yde en ekstra indsats i andre af disse stater end Pennsylvania, der også endte med at være den af de tre, der var tættest.

Meningsmålinger lider også af teknisk bias. De foregår stadig enten via telefon eller online, og begge dele sorterer personer fra. Især telefonmålingerne har formentligt undervurderet, hvor mange der i dag kan se, hvilket nummer der ringer op, og ikke tager telefonen, hvis de ikke kender nummeret. Det kunne jo være en telefonsælger eller fra inkasso.

Big Data i spil

Sådan så den sidste prognose ud dagen før valget. Illustration: FiveThirtyEight.com

Det er derfor, det ser ud til at være nødvendigt at bringe nye datakilder i spil. Nate Silver på FiveThirtyEight.com har tidligere haft held med sin model, der blandt andet tager økonomiske nøgletal og tidligere valgresultater med i vurderingerne af meningsmålingerne.

Men der er brug for at tænke større i Big Data. Det er for eksempel ikke utænkeligt, at usikkerheden om fremtidig beskæftigelse kan spille en rolle. Her kan man se på overordnet statistik og nøgletal for beskæftigelsen og forbrugertilliden, men ned på den enkelt valgkreds kunne der være betydelige udsving.

Big Data gør det muligt at analysere samtlige lokale nyhedshistorier fra de sidste fire år og eksempelvis se, om lukningen af en lokal fabrik har fyldt meget i den offentlige debat og dermed kunne påvirke vælgernes syn på fremtiden, selvom en enkelt lukning ikke giver udsving i delstatens samlede beskæftigelsestal.

Big Data giver også mulighed for at finde usete sammenhænge. Det kan være, at lukningen af en lokal fabrik kun spiller en rolle i valgkredse, hvor vælgerne pendler mere end 45 minutter hver dag. Eller at det er vigtigere, hvordan de lokale sportsklubber klarer sig i den nationale liga.

Måske kunne man også have set en indikator for, at Trump-kampagnen havde godt fat i Florida, hvis man så på tallene for, hvor mange vælgere der var registreret på Republikanernes side i forhold til Demokraterne sammenlignet med valget i 2012.

Svært at afprøve modeller

Den store udfordring er, at man ikke bare kan hælde data i en maskine og få en præcis prognose. Data skal trimmes, og modellen skal vægtes. Til gengæld er der i dag store mængder information til rådighed digitalt, som ikke tidligere har været lettilgængelige.

En af udfordringerne er, at der er meget få lejligheder til at afprøve modellerne. Det er i forvejen et problem, at der har været så forholdsvis få amerikanske præsidentvalg, at historiske data er svære at anvende. Forskellen mellem valget i 2004 og 2008 var eksempel både Facebook og Twitter, der dukkede op i mellemtiden.

De klassiske lærebøger i, hvordan man fører valgkamp, vil formentligt pege på 2016 som et år, der viste, at tv stadig er en magtfaktor. Trump har domineret nyhedsdækningen af valget og nærmest været inkarnationen af, at der ikke findes dårlig omtale.

Men hvis man vil forudsige resultatet af Trumps kampagne for at blive genvalgt i 2020, så skal der nye modeller på banen. Det enkle bud er at sætte penge på den siddende præsident, hvis økonomien ikke er helt i skoven. Det lidt mere komplicerede bud er, at man i hvert fald ikke skal antage, at den amerikanske befolkning er så homogen, at en telefonopringning til 2.000 personer kan forudsige resultatet.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (6)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Claus Tøndering

Isaac Asimov skrev i 1955 science fiction-novellen "Franchise". Den handler om hvordan man i fremtiden med computere kan finde frem til den typiske gennemsnitsamerikaner, og så kan man nøjes med at spørge ham hvem han ønsker som præsident; landsresultatet vil alligevel altid blive det samme som hvad han mener. På den måde sparer man masser af penge til valg.

Novellen foregår i 2008, så den er i hvert fald nogle år galt på den.

Peter Jensen

Så længe dem med den "rigtige" holdning efter deres hoved, bliver ved med at dæmoniser dem der har en anden holdning end dem, så det kan havde store personlige konsekvenser hvis ens holdning til emner kommer frem, så længe vil meningsmålinger være totalt utilregnelig.

Niels Elgaard Larsen

Big data virkede ikke for Clinton:
http://www.forbes.com/sites/jonmarkman/2016/08/08/big-data-and-the-2016-...

Mange vælgere har ret komplekse grunde til at stemme som de gør. Og ikke alle grunde er lige rationelle.

Jeg tror, at det vil meget nemmere fx at forudsige sportsresultater og aktiekurser end valg. Og når man kan det, hvem gider så spilde tid på præsidentvalg?

Log ind eller Opret konto for at kommentere