Dette indlæg er alene udtryk for skribentens egen holdning.

DataScience@home med corona

7. maj 2020 kl. 10:014
DataScience@home med corona
Illustration: Forlaget Filo.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Hvad gør man som data scientist og borger, når man bliver sendt hjem og sat til at hjælpe samfundet mod corona ved at sidde derhjemme og stirre ind i skærmen?

Man går selvfølgelig i gang med at lege med data - og helst coronarelateret data.

Rundt omkring skyder visualiseringer og diagrammer og langt mere kunstfærdige og forståelige grafer op ude på diverse blogs, i tweets og Linkedin-artikler, end myndighederne og de etablerede medier kan mønstre. Rigtig 'citizen data science' - eller 'borger-videnskab' må være det danske ord.

Borger-videnskab på langs

For mig startede corona-krisen med, at jeg blev syg. Men heldigvis er der rimeligt meget adspredelse i dagens Danmark på både Netflix, flow - og så de mange rundtomkring, der laver deres egne epidemi-statistikker.

Artiklen fortsætter efter annoncen

Derfor fulgte jeg lidt med i, hvad der skete af dataarbejde rundt omkring - både i de kommercielle medier samt Twitter og Linkedin, der flyder over med både gode og mindre gode visualiseringer og prognoser. Og af kompetenceniveauer.

Kode i den demokratiske debat

Under en pandemi ser man pludselig politikere med meget forskellige data- og sundhedsviden - der er alt fra Stinus Lindgreen (bioinformatiker og MF) til Donald Trump, der ytrer sig, som om han var ekspert. Lindgreen er faktisk også forsker i bioinformatik og baserer sine spørgsmål og kommentarer på en stærk naturvidenskabelig baggrund uden at skryde, mens Trump… ja, han er jo Trump.

Og nej - mange af corona-data-borgerne er ikke eksperter i epidemiologi. Men de fleste af dem, der har sat sig ned og kodet visualiseringer, har dog et ben inde i nogle af de discipliner. Måske fra en økonomi-vinkel eller en bioinformatik-vinkel, og nogle gange kan de tværfaglige input være ret interessante.

Mon ikke dele af de pip, der lyder rundt omkring på nettet, ender som peer reviewed forskning?Jeg har her hovedsageligt medtaget Twitter-indlæg, da de jo er offentlige og nemt kan indlejres.

Må sidde med lineal

I de dataprojekter, jeg har været en del af, har jeg oplevet, at data har haft status af noget,man skulle holde tæt ind til kroppen. Det var lig publikationer og bevillinger.

Artiklen fortsætter efter annoncen

Men når man sidder midt i en pandemisk krise, kan man godt synes, at data måske burde være en smule mere gennemsigtigt, så der kunne komme nye indsigter. Men det har ikke stoppet folk.

Mange har siddet med linealer og sjusset sig frem til data, da der ikke altid er udgivet tabeller, men grafer, og har måttet rekonstruere data ved at måle sig frem eller regne baglæns. Derfor kommer der garanteret et boom i visualiseringer nu, hvor i hvert fald nogle data og metoder er blevet offentliggjort (og selvfølgelig gjort tilgængelige af en corona-data-borger på GitHub). Pressemeddelelsen er her.

Hvilke tal er vigtige? Forskydelse af antal ny-indlagte og antal døde

Medio april var de eneste parametre for, hvordan det virkelig ser ud i Danmark, de ny-indlagte, de døde og respiratorpatienterne. Derfor blev jeg særligt glad for denne overskuelige graf fra ingeniøren 'JJ', der så fint samlede, nogenlunde hvad vi vidste per 19. april:

Morten Kjeldgaard, der har arbejdet med proteinstrukturer, laver daglige opdateringer, og grafen har virkelig meget information i sig. Den giver efter min mening et bedre billede af udviklingen i Danmark, end de fleste danske medier formår:

Reproduktion/Smittetryk

Så er der R. For to måneder siden var det et programmeringssprog, der fyldte 20 år (i 1.0-udgaven), og som bruges af mange til netop statistik og programmering. I dag er det smittetrykket, der beregnes fra R0 (afhænger af, hvor smitsom sygdommen er, hvor mange personer man er i nærheden af, og hvor lang tid man kan smitte). BeklageR forvirringen.

Der er forskellige udgaver af SIR-modellen, og Statens Seruminstitut (SSI) har i skrivende stund ikke offentliggjort metoden. Der ventes spændt rundt omkring med R-skriptsne parat. (høhø)

Af de mere interessante, der er kommet ud af SoMe-data-battlen, er fx lektor i statskundskab, Martin Vinæs Larsens visualisering af smittetrykket over tid (her 5. maj):

Også Christian Heebøl, der er farmaceut, har lavet en god forklaring på, hvordan R beregnes, og hvad det betyder (visualiseringen er vist Statens Serum Instituts).
Han har desuden lavet denne simulator af R, hvor man kan beregne udviklingen i R for mange lande baseret på enten cases eller dødsfald.

Prognoser og simuleringer

Biostatistikeren Claus Thorn Ekstrøm har lavet en fin introduktion til R og SIR-modellen samt de udvidede SIR-modeller, som kan være mere hensigtsmæssige at bruge. Der ligger selvfølgelig også R-kode på github.

Ekstrøm har også lavet en simulator, så man kan prøve modellerne af med forskellige parametre uden selv at skulle kode.

Mikkel Freltoft Krogsholm, der arbejder som data scientist, har også leget med prognoser - og har vedlagt R-koden. Og så kan man jo arbejde videre med den, hvis man vil:

Teaser: Corona-forskningsprojekt på vej

Mit eget forskningsprojekt er også blevet ændret en smule og har fået en smag af corona. Mere om det i næste blog.

Post gerne links til jeres yndlings-corona-grafer!

4 kommentarer.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
4
28. juni 2020 kl. 20:08

Var det bare pingviner :-)

3
12. maj 2020 kl. 19:37

DTU compute offentliggjorde i sidste uge den model de og KU har lavet til SSI

Modellen