bloghoved zambach

DataScience@home med corona

Hvad gør man som data scientist og borger, når man bliver sendt hjem og sat til at hjælpe samfundet mod corona ved at sidde derhjemme og stirre ind i skærmen?

Man går selvfølgelig i gang med at lege med data - og helst coronarelateret data.

Rundt omkring skyder visualiseringer og diagrammer og langt mere kunstfærdige og forståelige grafer op ude på diverse blogs, i tweets og Linkedin-artikler, end myndighederne og de etablerede medier kan mønstre. Rigtig 'citizen data science' - eller 'borger-videnskab' må være det danske ord.

Borger-videnskab på langs

For mig startede corona-krisen med, at jeg blev syg. Men heldigvis er der rimeligt meget adspredelse i dagens Danmark på både Netflix, flow - og så de mange rundtomkring, der laver deres egne epidemi-statistikker.

Derfor fulgte jeg lidt med i, hvad der skete af dataarbejde rundt omkring - både i de kommercielle medier samt Twitter og Linkedin, der flyder over med både gode og mindre gode visualiseringer og prognoser. Og af kompetenceniveauer.

Kode i den demokratiske debat

Under en pandemi ser man pludselig politikere med meget forskellige data- og sundhedsviden - der er alt fra Stinus Lindgreen (bioinformatiker og MF) til Donald Trump, der ytrer sig, som om han var ekspert. Lindgreen er faktisk også forsker i bioinformatik og baserer sine spørgsmål og kommentarer på en stærk naturvidenskabelig baggrund uden at skryde, mens Trump… ja, han er jo Trump.

Og nej - mange af corona-data-borgerne er ikke eksperter i epidemiologi. Men de fleste af dem, der har sat sig ned og kodet visualiseringer, har dog et ben inde i nogle af de discipliner. Måske fra en økonomi-vinkel eller en bioinformatik-vinkel, og nogle gange kan de tværfaglige input være ret interessante.

Mon ikke dele af de pip, der lyder rundt omkring på nettet, ender som peer reviewed forskning?Jeg har her hovedsageligt medtaget Twitter-indlæg, da de jo er offentlige og nemt kan indlejres.

Må sidde med lineal

I de dataprojekter, jeg har været en del af, har jeg oplevet, at data har haft status af noget,man skulle holde tæt ind til kroppen. Det var lig publikationer og bevillinger.

Men når man sidder midt i en pandemisk krise, kan man godt synes, at data måske burde være en smule mere gennemsigtigt, så der kunne komme nye indsigter. Men det har ikke stoppet folk.

Mange har siddet med linealer og sjusset sig frem til data, da der ikke altid er udgivet tabeller, men grafer, og har måttet rekonstruere data ved at måle sig frem eller regne baglæns. Derfor kommer der garanteret et boom i visualiseringer nu, hvor i hvert fald nogle data og metoder er blevet offentliggjort (og selvfølgelig gjort tilgængelige af en corona-data-borger på GitHub). Pressemeddelelsen er her.

Hvilke tal er vigtige? Forskydelse af antal ny-indlagte og antal døde

Medio april var de eneste parametre for, hvordan det virkelig ser ud i Danmark, de ny-indlagte, de døde og respiratorpatienterne. Derfor blev jeg særligt glad for denne overskuelige graf fra ingeniøren 'JJ', der så fint samlede, nogenlunde hvad vi vidste per 19. april:

Morten Kjeldgaard, der har arbejdet med proteinstrukturer, laver daglige opdateringer, og grafen har virkelig meget information i sig. Den giver efter min mening et bedre billede af udviklingen i Danmark, end de fleste danske medier formår:

Reproduktion/Smittetryk

Så er der R. For to måneder siden var det et programmeringssprog, der fyldte 20 år (i 1.0-udgaven), og som bruges af mange til netop statistik og programmering. I dag er det smittetrykket, der beregnes fra R0 (afhænger af, hvor smitsom sygdommen er, hvor mange personer man er i nærheden af, og hvor lang tid man kan smitte). BeklageR forvirringen.

Der er forskellige udgaver af SIR-modellen, og Statens Seruminstitut (SSI) har i skrivende stund ikke offentliggjort metoden. Der ventes spændt rundt omkring med R-skriptsne parat. (høhø)

Af de mere interessante, der er kommet ud af SoMe-data-battlen, er fx lektor i statskundskab, Martin Vinæs Larsens visualisering af smittetrykket over tid (her 5. maj):

Også Christian Heebøl, der er farmaceut, har lavet en god forklaring på, hvordan R beregnes, og hvad det betyder (visualiseringen er vist Statens Serum Instituts).
Han har desuden lavet denne simulator af R, hvor man kan beregne udviklingen i R for mange lande baseret på enten cases eller dødsfald.

Prognoser og simuleringer

Biostatistikeren Claus Thorn Ekstrøm har lavet en fin introduktion til R og SIR-modellen samt de udvidede SIR-modeller, som kan være mere hensigtsmæssige at bruge. Der ligger selvfølgelig også R-kode på github.

Ekstrøm har også lavet en simulator, så man kan prøve modellerne af med forskellige parametre uden selv at skulle kode.

Mikkel Freltoft Krogsholm, der arbejder som data scientist, har også leget med prognoser - og har vedlagt R-koden. Og så kan man jo arbejde videre med den, hvis man vil:

Teaser: Corona-forskningsprojekt på vej

Mit eget forskningsprojekt er også blevet ændret en smule og har fået en smag af corona. Mere om det i næste blog.

Post gerne links til jeres yndlings-corona-grafer!

Kommentarer (4)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere