Jeg er ved at få spat af alle de amatører der sidder og laver exponentiel kurve-fits i deres regneark og derefter bræger løs fra deres matematisk vakkelvorne sæbekasse med resultaterne.
Det er fint nok at lege med tal, det bør vi alle gøre, men man skal tænke sig godt om inden man åbner munden om resultaterne hvis men ikke kan redegøre for usikkerheden i den model man har lavet.
Lige nu er problemet at vi har meget få og små tal, det gør usikkerheden på enhver projektion enorm, uanset at regnearkets viser tre, seks eller sågar syv decimaler.
Det fundamentale problem er at folk fitter en kontinueret model til diskrete datapunkter.
Groft sagt: Vores data er at A mennesker døde mandag, B mennesker tirsdag osv. men vi modelerer dødsfaldende som f(x) for alle x-værdier døgnet rundt.
Men indelingen i døgn er arbitrær, man kunne lige så vel have talt kister fra frokost mandag til frokost tirsdag, frokost onsdag osv. og hvis man gjorde det, ville alle amatørenes kurve-fits give andre resultater.
Her er en tommelfingerregel fra den statistiske kvalitetskontrols barndom, for snart 100 år siden, som giver en robust en ide om usikkerheden på kontinuerte kurver fittet til diskrete datapunkter:
Først fitter vi kurven for alle datapunkterne:
A, B, C, D, E, F ...
Dernæst tester vi om ±1 samplingfejl har betydning, groft sagt om det er vigtigt at sygeplejeskernes ure går rigtigt omkring midnat, fit kurverne for:
A+1, B-1, C, D, E, F...
A-1, B+1, C, D, E, F...
A, B+1, C-1, D, E, F...
A, B-1, C+1, D, E, F...
A, B, C+1, D-1, E, F...
...
Dernæst et meget groft check for grov periodisk ustabilitet, fit kurverne for:
A+1, B-1, C+1, D-1, E+1, F-1 ...
og
A-1, B+1, C-1, D+1, E-1, F+1 ...
Endelig tester vi om der er nogle meget følsomme datapunkter, ved at fitte kurverne for:
B, C, D, E, F...
A, C, D, E, F...
A, B, D, E, F...
...
Når man har gjort det, er det meget usandsynligt at den korrekte matematiske models kurve ligger udenfor den skov af kurver man har plottet og man blamerer sig ikke indlysende ved at publicere et plot med skovbrynet, dvs. Over- og underkant af alle kurverne tilsammen.
Men det er stadig strengt forbudt at spekulere, eller ved gennemsnits eller median-betragtninger "beregne", hvor i skoven den rigtige kurve er.
98 ± 5% af alle regnearksbrugere aner ikke hvad der foregår.
phk

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.