- Log ind eller Opret konto for at kommentere
- Anmeld denne kommentar
God post, Sine!!
Hvad gør man som data scientist og borger, når man bliver sendt hjem og sat til at hjælpe samfundet mod corona ved at sidde derhjemme og stirre ind i skærmen?
Man går selvfølgelig i gang med at lege med data - og helst coronarelateret data.
Rundt omkring skyder visualiseringer og diagrammer og langt mere kunstfærdige og forståelige grafer op ude på diverse blogs, i tweets og Linkedin-artikler, end myndighederne og de etablerede medier kan mønstre. Rigtig 'citizen data science' - eller 'borger-videnskab' må være det danske ord.
For mig startede corona-krisen med, at jeg blev syg. Men heldigvis er der rimeligt meget adspredelse i dagens Danmark på både Netflix, flow - og så de mange rundtomkring, der laver deres egne epidemi-statistikker.
Derfor fulgte jeg lidt med i, hvad der skete af dataarbejde rundt omkring - både i de kommercielle medier samt Twitter og Linkedin, der flyder over med både gode og mindre gode visualiseringer og prognoser. Og af kompetenceniveauer.
Under en pandemi ser man pludselig politikere med meget forskellige data- og sundhedsviden - der er alt fra Stinus Lindgreen (bioinformatiker og MF) til Donald Trump, der ytrer sig, som om han var ekspert. Lindgreen er faktisk også forsker i bioinformatik og baserer sine spørgsmål og kommentarer på en stærk naturvidenskabelig baggrund uden at skryde, mens Trump… ja, han er jo Trump.
Og nej - mange af corona-data-borgerne er ikke eksperter i epidemiologi. Men de fleste af dem, der har sat sig ned og kodet visualiseringer, har dog et ben inde i nogle af de discipliner. Måske fra en økonomi-vinkel eller en bioinformatik-vinkel, og nogle gange kan de tværfaglige input være ret interessante.
Mon ikke dele af de pip, der lyder rundt omkring på nettet, ender som peer reviewed forskning?Jeg har her hovedsageligt medtaget Twitter-indlæg, da de jo er offentlige og nemt kan indlejres.
I de dataprojekter, jeg har været en del af, har jeg oplevet, at data har haft status af noget,man skulle holde tæt ind til kroppen. Det var lig publikationer og bevillinger.
Men når man sidder midt i en pandemisk krise, kan man godt synes, at data måske burde være en smule mere gennemsigtigt, så der kunne komme nye indsigter. Men det har ikke stoppet folk.
Mange har siddet med linealer og sjusset sig frem til data, da der ikke altid er udgivet tabeller, men grafer, og har måttet rekonstruere data ved at måle sig frem eller regne baglæns. Derfor kommer der garanteret et boom i visualiseringer nu, hvor i hvert fald nogle data og metoder er blevet offentliggjort (og selvfølgelig gjort tilgængelige af en corona-data-borger på GitHub). Pressemeddelelsen er her.
Medio april var de eneste parametre for, hvordan det virkelig ser ud i Danmark, de ny-indlagte, de døde og respiratorpatienterne. Derfor blev jeg særligt glad for denne overskuelige graf fra ingeniøren 'JJ', der så fint samlede, nogenlunde hvad vi vidste per 19. april:
Thread: Tog antallet af ny-indlagte og antallet af døde dagligt i% og plottede dem ind på en graf med 11 marts som dag 0. Ny-indlagte toppede efter 14 dage og antal døde efter 21 dage. Hvad fortæller det os så om udviklingen i antallet af ny-smittede efter lockdown'en ? #dkpol 1 pic.twitter.com/D5MYm3aX1T— JJ (@me_marco) April 19, 2020
Morten Kjeldgaard, der har arbejdet med proteinstrukturer, laver daglige opdateringer, og grafen har virkelig meget information i sig. Den giver efter min mening et bedre billede af udviklingen i Danmark, end de fleste danske medier formår:
Dagens #covid19dk tal d. 5/5. Vi har stort set det samme at sige som de sidste adskillige dage, men nu hvor vi ikke har flyverstreger i himlen at se på, kan kurverne her måske gøre det ud for samme. I går blev knap 13.000 testede, 151 fundet positive. 10 mennesker døde. #cvdgdk pic.twitter.com/ZC7pA5xZqe— Morten Kjeldgaard (@mortenkj) May 5, 2020
Så er der R. For to måneder siden var det et programmeringssprog, der fyldte 20 år (i 1.0-udgaven), og som bruges af mange til netop statistik og programmering. I dag er det smittetrykket, der beregnes fra R0 (afhænger af, hvor smitsom sygdommen er, hvor mange personer man er i nærheden af, og hvor lang tid man kan smitte). BeklageR forvirringen.
Der er forskellige udgaver af SIR-modellen, og Statens Seruminstitut (SSI) har i skrivende stund ikke offentliggjort metoden. Der ventes spændt rundt omkring med R-skriptsne parat. (høhø)
Af de mere interessante, der er kommet ud af SoMe-data-battlen, er fx lektor i statskundskab, Martin Vinæs Larsens visualisering af smittetrykket over tid (her 5. maj):
Hvis nogle skulle være nysgerrige, så har jeg beregnet smittetryk på baggrund af den metode @SSI_dk netop har offentliggjort. Jeg kan ikke helt få det til at passe, men måske skyldes det at de præcise data fra Landspatientsregisteret ikke er offentliggjort. pic.twitter.com/u3KCfQiu1Z— Martin Vinæs - 100.000 test om dagen (@mvinaes) May 5, 2020
Også Christian Heebøl, der er farmaceut, har lavet en god forklaring på, hvordan R beregnes, og hvad det betyder (visualiseringen er vist Statens Serum Instituts).
Han har desuden lavet denne simulator af R, hvor man kan beregne udviklingen i R for mange lande baseret på enten cases eller dødsfald.
Biostatistikeren Claus Thorn Ekstrøm har lavet en fin introduktion til R og SIR-modellen samt de udvidede SIR-modeller, som kan være mere hensigtsmæssige at bruge. Der ligger selvfølgelig også R-kode på github.
Ekstrøm har også lavet en simulator, så man kan prøve modellerne af med forskellige parametre uden selv at skulle kode.
Mikkel Freltoft Krogsholm, der arbejder som data scientist, har også leget med prognoser - og har vedlagt R-koden. Og så kan man jo arbejde videre med den, hvis man vil:
For næsten 3 uger siden lavede jeg en forecast på udviklingen af COVID 19 hospitaliseringer i Danmark. Den har vist sig ikke at være helt tosset. Og modsat SSI, så vil jeg gerne dele min kode med jer. Den ligger her:https://t.co/sXrKtSw3l6#dkpol #dksund #COVID19 pic.twitter.com/nBsgxovXo4— Mikkel Krogsholm (@mikkelkrogsholm) May 4, 2020
Mit eget forskningsprojekt er også blevet ændret en smule og har fået en smag af corona. Mere om det i næste blog.
Post gerne links til jeres yndlings-corona-grafer!
God post, Sine!!
Min yndlingsgraf er slet ikke om corona: http://angryflower.com/1338.html
DTU compute offentliggjorde i sidste uge den model de og KU har lavet til SSI
Var det bare pingviner :-)