Hvis der var valg i morgen - eller om tre-fire uger
Dette blogindlæg er skrevet i samarbejde med Kasper Risager.
Der er efterhånden disket godt op med valgflæsk ude i den danske land, og denne blog skal da ikke stå tilbage for dén tendens. Det er dog dataflæsk, vi serverer her i bloggen.
Som et medlem af projektet 'Hvis der var valg i morgen' vil jeg sammen med Kasper Risager trække lidt på det datamateriale, vi faktisk har om valg, og på metoder, der omsætter det til sandsynligheder for forskellige udfald. Det sidste kendes især fra USA (mest berømt er Nate Silvers Fivethirtyeight).
Men først kigger vi på de seneste tre valg og hvor godt meningsmålingerne ramte skiven.
Da der var valg i ‘07, ‘11 og ‘15
Vi starter lige i datid og ser tilbage på de seneste tre valg, som vi har gode data på. Afstanden fra midten angiver, hvordan de ramte i forhold til den statistiske usikkerhed, man kunne forvente i plottet nedenfor. Gul er godt, rød er acceptabelt, og blå er dårligt (udenfor et 95% konfidensinterval). Hvis vi sammenholder meningsmålingerne dagen før valget med det egentlige resultat, kan vi se, at mens de med få undtagelser ramte ret godt i 2007 og 2011, så var spredningen væsentligt større i 2015.
Hvad man ikke kan se på ovenstående figur er, at ud over, at meningsmålingerne alle ramte inden for skiven i 2007 og 2011, så ramte alle meningsmålingsinstitutter forkert i samme retning alle tre valgår. Denne fælles fejlvurdering var særligt udtalt i 2015 - hvilket man kan se i nedenstående plot, der viser forskellen mellem meningsmålingerne og resultatet i procentpoint:
Det er fint at sige, at man stemmer SF (F) og De Konservative (C)
Men i virkeligheden stemmer man DF (O) og Venstre (V). Sådan var situationen i hvert fald i 2011.
Det sidste plot viser, i hvilken retning de forskellige partiers meningsmålinger lå dagen inden valget, i forhold til hvad de endte på. Ideelt skulle de fordele sig med lige meget areal på begge sider af aksen. Det gør de dog ikke.
I 2015 sagde folk i højere grad, at de ville stemme Radikalt (B) og Kristendemokraterne (K), men de endte med at stemme DF - (eller også blev B og K hjemme, mens DF’erne tog til valgurnerne). I 2007 var det B og Ø, der blev hjemme (eller skiftede mening og stemte på V).
Men alt dette er jo bare deskriptiv statistik, som plotter valresultaterne på lidt nye måder. I virkeligheden ville det jo være fedt at kunne bruge den forenede mængde af meningsmålinger til - fra dag til dag - at sige noget om valgresultaterne. Det gør vi naturligvis, men først tager vi et smut omkring USA.
Fivethirtyeight - den amerikanske metode
Som de fleste vil have hørt om, så har de i USA en ret særpræget valgform til præsidentvalget. Hver stat stemmer separat, vinderen får alle statens valgmænd, og det er fordelingen af valgmænd, der afgør vinderen.
Det betyder også, at et flertal i befolkningen ikke nødvendigvis betyder et flertal af valgmænd - noget, som gav Donald Trump sejren i 2016. Derfor kan man ikke bruge landsdækkende meningsmålinger til så meget, for slutresultatet afhænger af lokale dynamikker i hver stat.
Heldigvis er amerikanerne glade for data, så derfor findes der meningsmålinger for de fleste af staterne. Igen hjælper det dog ikke, for hvis meningsmålingerne bare rammer et par procent forkert i nogle få stater, kan det flytte drastisk på valgmændene.
Derfor tager man den såkaldte Monte Carlo-metode i brug. Man kigger på, hvor tæt meningsmålinger historisk har ramt, kigger på, hvordan lokale resultater korrelerer med landsresultat, og ud fra de seneste meningsmålinger genererer man et stort antal tilfældige, men lige sandsynlige valgresultater.
Nogle rammer måske meningsmålingerne, andre rammer forbi på landsplan, nogle rammer forbi på lokalt plan, men de ligger alle inden for den usikkerhed, der er i meningsmålinger. For alle disse valgresultater udregnes, hvem der bliver præsident, og vups, sandsynligheden for, at en kandidat vinder, kan findes ved at se på frekvensen i de genererede valgresultater.
Metoden er meget udbredt i naturvidenskab og finansiel matematik, men er kun kommet ind i samfundsvidenskab over de seneste ti år, blandt andet via Fivethirtyeight. Og i sammenhæng med danske valg er det ikke set før - så vidt vi ved, i hvert fald.
Metode til meningsmålingsstatistikken
Nu hvor valget er nært, kan vi godt løfte sløret for, hvad vi har tænkt os at gøre. Det er lidt anderledes end i 2015, da vi kørte det ud fra den antagelse, at meningsmålingerne nok ville holde stik inden for deres statistiske usikkerhed.
Grundlæggende har vi bare kigget en masse på, hvordan meningsmålingerne ser ud til at ramme og ikke ramme valgresultatet. For at holde modellen simpel kigger vi kun på de seneste meningsmålinger før valgene, og forudsigelserne fra modellen er derfor virkelig hvis der var valg i morgen, og ikke hvis der var valg den dag, der er valg.
De mange, lige sandsynlige, valgresultater genererer vi med udgangspunkt i gennemsnittet af de seneste målinger fra hvert institut. Dertil lægger vi støj, der skal repræsentere usikkerheden i meningsmålingerne. Støjen har to komponenter:
En komponent med støj for hvert parti. Den simpleste model ville faktisk være bare at trække tilfældige resultater for hvert parti plus/minus cirka 10 procent (ikke procent-point) i forhold til meningsmålingerne og så skalere de summer til 100 procent. Vi gør noget lidt mere avanceret, men det er grundlæggende ikke så forskelligt.
En komponent følger den variabilitet i meningsmålingerne, der er mellem institutterne. Hvis de er meget uenige om, hvor mange stemmer Alternativet får, er det nok et udtryk for, at Alternativets stemmetal er usikkert i forhold til gennemsnittet af målinger. På samme måde: Hvis målingerne er enige om, hvor mange stemmer DF og Nye Borgerlige får tilsammen, men uenige om, hvordan de fordeles mellem dem, vil dette også være afspejlet i komponenten. Denne komponent indeholder implicit den statistiske usikkerhed, som meningsmålingerne har, fordi de spørger et begrænset antal personer.
Det smarte ved dette er, at vi nu kan stille forskellige scenarier op og udnytte ‘valgresultaternes’ samlede forudsigelse. Fx sandsynligheden for, at det bliver Nordatlanten, der bestemmer, om det bliver rød eller blå blok, der får regeringsmagten.
I 2015 fulgte vi 'Tulle-tallet', som angav sandsynligheden for, at blå blok ville vinde, samtidig med at DF blev større end Venstre. Sandsynligheden var lille, men det var som bekendt, hvad der skete - ikke mindst på grund af, at DF blev underrapporteret og R overrapporteret - se figuren ovenfor.
Site for projektet ligger her - kan også følges på Twitter @HvisDerVarValg og Facebook @hvisdervarvalgimorgen
Andre valgstatistik-sites der er opdateret til dette valg:
- Erik Gahners Politologi Prognose (også i Altinget): - inderholder blandt andet korrektion af 'hus'-effekter hos de enkelte institutter.
- Nate Silvers Fivethirtyeight. Mest berømte og gennemarbejdede eksponent for Monte Carlo-metoden beskrevet.
- Alt er lavet i det lækre data- og statistikprogrameringssprog R. Gahner har lavet en online-bog der giver en god, dansk intro til R, og 56north har lavet en anden meget kort og overskuelig intro til R.
Vi glæder os til at levere statistikken direkte til Version2’s læsere. Hvis I kender et godt valg-statistiksite så skriv til os!
