Kontinuerte modeller af diskrete begivenheders usikkerhed

Jeg er ved at få spat af alle de amatører der sidder og laver exponentiel kurve-fits i deres regneark og derefter bræger løs fra deres matematisk vakkelvorne sæbekasse med resultaterne.

Det er fint nok at lege med tal, det bør vi alle gøre, men man skal tænke sig godt om inden man åbner munden om resultaterne hvis men ikke kan redegøre for usikkerheden i den model man har lavet.

Lige nu er problemet at vi har meget få og små tal, det gør usikkerheden på enhver projektion enorm, uanset at regnearkets viser tre, seks eller sågar syv decimaler.

Det fundamentale problem er at folk fitter en kontinueret model til diskrete datapunkter.

Groft sagt: Vores data er at A mennesker døde mandag, B mennesker tirsdag osv. men vi modelerer dødsfaldende som f(x) for alle x-værdier døgnet rundt.

Men indelingen i døgn er arbitrær, man kunne lige så vel have talt kister fra frokost mandag til frokost tirsdag, frokost onsdag osv. og hvis man gjorde det, ville alle amatørenes kurve-fits give andre resultater.

Her er en tommelfingerregel fra den statistiske kvalitetskontrols barndom, for snart 100 år siden, som giver en robust en ide om usikkerheden på kontinuerte kurver fittet til diskrete datapunkter:

Først fitter vi kurven for alle datapunkterne:

A, B, C, D, E, F ...  

Dernæst tester vi om ±1 samplingfejl har betydning, groft sagt om det er vigtigt at sygeplejeskernes ure går rigtigt omkring midnat, fit kurverne for:

A+1, B-1, C, D, E, F...  
A-1, B+1, C, D, E, F...  
A, B+1, C-1, D, E, F...  
A, B-1, C+1, D, E, F...  
A, B, C+1, D-1, E, F...  
...

Dernæst et meget groft check for grov periodisk ustabilitet, fit kurverne for:

A+1, B-1, C+1, D-1, E+1, F-1 ...

og

A-1, B+1, C-1, D+1, E-1, F+1 ...

Endelig tester vi om der er nogle meget følsomme datapunkter, ved at fitte kurverne for:

B, C, D, E, F...  
A, C, D, E, F...  
A, B, D, E, F...  
...

Når man har gjort det, er det meget usandsynligt at den korrekte matematiske models kurve ligger udenfor den skov af kurver man har plottet og man blamerer sig ikke indlysende ved at publicere et plot med skovbrynet, dvs. Over- og underkant af alle kurverne tilsammen.

Men det er stadig strengt forbudt at spekulere, eller ved gennemsnits eller median-betragtninger "beregne", hvor i skoven den rigtige kurve er.

98 ± 5% af alle regnearksbrugere aner ikke hvad der foregår.

phk

Kommentarer (16)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Jack nix

Desværre ikke et nyt problem, at folk bruger matematik uden forstå den. Ikke 2 % af folk med lange uddannelser (heriblandt medicin og biologi) forstår den matematik de bruger. De er trænet i at indsætte tal i en formel - Ikke i at forstå den. Kun med uddannede fra matematik, datalogi, fysik e.l. kan man gøre sig en forhåbning.

Jeg møder jævnligt kandidater fra diverse naturvidenskabelige uddannelser, som beklager sig over, at "Punkterne skal pege opad. Det gjorde de, da vi lærte det.". Kan man ikke forstå matematiken skal man ikke bruge den. Slet ikke udgive den eller støtte sig opad den. Jeg tror ikke de fleste læger o.l. kan dette. Jeg har stor tiltro til, at læger o.l. har vældigt godt styr på biokemien o.l. ift. corona, men når deres vurdering baserer sig ligeså meget på en statistisk model, bliver jeg skræmt.

Når det så er sagt, så kunne de fleste relativt nemt kigge på konfidensinterval o.l.

  • 1
  • 0
Povl H. Pedersen

Excel er vel netop lavet for at medarbejderne kan præstere udover evne :-) Nu er det ikke kun matematik den er galt med, ofte har macroforfatterne heller ikke fornøden viden, men Microsoft hjælper dem med at skjule det indtil macroerne bliver kritiske :-)

Det mest taknemmelige er vel netop at lave en model med så få punkter som muligt, så er der meget få outliers, og man kan lettere få en kurve til at passe. 2-punkter er super, det kan være lineært eller exponentielt afhængigt af hvad man ønsker.

Der er en grund til at man taler om statistik som værende en kæmpeløgn der alene er der for at bevide det man vil vise. Man rette akser, nulpukter etc, så man får en passende graf.

Men datagrundaget fra den lille stikprøve, sygehusvæsenet er ikke nødvendigvis ret godt. Man taler om kæmpe mørketal.

Det eneste sygehusvæsnets tal viser er hvor mange i risikogruppperne der er smittet, og siger intet om udbredelsen i den brede befolkning. De tiltag der er lavet omkring risikogrupperne kan sagtens virke uafhængigt af resten af befolkningen. Lidt a'la den svenske teori.

  • 7
  • 0
Lasse Mølgaard

Der er en grund til at man taler om statistik som værende en kæmpeløgn

Hvilket minder mig om en kommentar en af mine undervisere kom med på datamatiker studiet:

"Der er 3 ting du kan ikke stole på og det er: Statistik, statistik og statistik".

Personligt bruger jeg mere statistik til at give mig et fingerpeg om hvilken retning vi er på vej hen imod.

Når det så er sagt:

Grunden til vi snakker om konfidensintervaller er vel, at ting kan stadigvæk gå i en anden retning end forventet.

Sandsynligheden er blot relativ lille, hvis man har et godt fit på kurven?

  • 0
  • 0
Bjarke Haack Jørgensen

Der er 3 ting du kan ikke stole på og det er: Statistik, statistik og statistik.

Hvis han havde været lidt sjovere havde han sagt fire ting.

On-topic: tak for at der på internettet (stadig) er steder/mennesker der kærer for at tingene bliver gjort ordentligt.

  • 0
  • 0
Maciej Szeliga

Der er 3 ting du kan ikke stole på og det er: Statistik, statistik og statistik.

Statistik kan kun bruges til noget hvis du har en pålidelig kilde til data ellers er det bare en løgn, desværre er antagelsen ofte at data er per definition pålidelige - og det er de ikke hvis de f.eks. afgives af mennesker til brug for en bestemt undersøgelse eller hvis de indsamles af mennesker (fordi indsamlerne også har en bias).

  • 1
  • 0
Ditlev Petersen

og det er de ikke hvis de f.eks. afgives af mennesker til brug for en bestemt undersøgelse eller hvis de indsamles af mennesker (fordi indsamlerne også har en bias).

Det er jo ikke uden videre rigtigt (dvs. forkert). Men man bør overveje risikoen. Når folk laver f.eks. meningsmålinger op til at valg, vil de spørge, hvem man agter at stemme på, ikke: Vil du også stemme på Mette Frederiksen?

  • 0
  • 0
Poul-Henning Kamp Blogger

Statistik kan kun bruges til noget hvis du har en pålidelig kilde til data ellers er det bare en løgn

Det er her så fundamentalt forkert at jeg bliver nødt til at brokke mig.

Uanset hvor ringe dine data er, kan statistik sige noget om dem, det er sådan set hele pointen ved statistik: At sige hvad der kan siges om ufuldkomne data.

(Se f.eks "Sensitivity in Risk Analysis with Uncertain Numbers", Sandia report SAND2006-2801)

Problemet er at folk "glemmer" at forholde sig til og kommunikere hvad statistikken også siger om hvor meget man kan stole på resultatet.

At der er folk der direkte lyver om og med statistisk, det der i klimakredse kollegialt omtales som "Lomborgisme", er ikke statistiskkens skyld, men de medier (host JP host ) lægger pixels til den slags charlataner.

En del af problemet er dog at folk ikke engang altid gør sig klart om det de er igang med er statistik eller ej til at begynde med og der er bestemt ingen tvivl om at regneark er medskyldige her.

Hvorfor kommer der f.eks ikke automatisk et usikkerhedsinterval på når man laver kurvefits ? Det burde være umuligt at slippe for!

Men bare at afskrive statistik, fordi folk misbruger det og ikke kan finde ud af det, som du gør er simplehen for lavpandet, for statistikken er, på linie med algebra, den del af matematikken der har størst andel i den teknologiske civilisation og livskvalitet vi nyder.

  • 10
  • 1
Martin Zacho

Der er garanteret ikke taget højde for sommertidens indtræden.

@phk: med de 98% +/-5% - mener du så +/-5%-point? ;-)

Jeg er absolut en af dem, der plotter og fitter data - men det synes nu godt man kan gøre, hvis man er sig usikkerhederne bevidst og ikke påstår andet. Af samme grun har jeg valgt kun at se på det antal, der er indlagt på hospitalet og forholdet mellem to på hinanden følgende dage (midlet over de sidste 3 dage). Grafen er sikkert forkert ud fra en korrekt matematisk synsvinkel, men den giver mig noget at kikke på og gøre sig daglige tanker om emnet - og mere har jeg ikke behov for :)

  • 0
  • 0
Maciej Szeliga
  • 0
  • 0
Morten Pedersen

Enig i at valget af diskretisering af tid giver anledning til en fejl, men jeg vil mene at der er flere problemer med at lave et simpelt fit i Excel udfra en eksponentieltilvækst.

For det første : Valg af diskret tidsinterval - det er faktisk knap så meget at intervallet er diskret som er problemet. For at bruge almindelige fittefunktioner antager man at fejlen er normaltfordelt omkring den sande værdi. Det der fittes til er en tællestatistik, hvis fejl ifølge sagens natur vil være asymmetrisk for små tal (i.e. man kan ikke tælle mindre end nul). Derfor vil et standard fit i Excel el lign give en forkert værdi af den eksponentielle tidskonstant fordi vægtningen af de forskellige datapunkter i fittet er forkert.

For det andet, så er det kun i den spæde start af en epidemi at antallet af cases vil vokse eksponentielt. Ifølge de simpleste epidemiologiske modeller så er det eksponentiel vækst sålænge antallet af modtagelige individer er ca lig med den totale population. Som antallet stiger, så vil antallet af modtagelige individer falde som funktion af tiden, og antallet af cases vil gå fra eksponentiel vækst til nul vækst og efterfølgende fald

Den mere korrekte måde at finde vækstkonstanten er, at starte med en model hvor vækstkonstanten indgår som parameter (kaldet alpha). For hver dag udregnes så sandsynligheden for at observere det antal cases som man rent faktisk observerede, givet en valgt alpha værdi, f.eks. under antagelse af at antallet af cases er Poisson fordelt omkring den underliggende sande værdi. Den samlede sandsynlighed er så produktet af alle de enkelte sandsynligheder for alle dage (eller summen af deres logaritmer). Dette kalder vi likelihood funktionen som kun afhænger af alpha.

Den værdi af alpha som maksimerer likelihood funktionen er det bedste ("most likely") estimat af alpha. Hvis man vil kende usikkerheden på alpha så er det éen delt med den anden afledte af likelihood funktionen med hensyn til alpha. Dette giver god intuitiv mening, en likelihood funktion som har et skarpt maximum giver en høj anden afledt og dermed lille usikkerhed og vice versa.

Fordelen er at man slipper for traditionel datareduktion (f.eks. midling) som reducerer et støjende signal men fjerner information

  • 1
  • 0
Log ind eller Opret konto for at kommentere