Hvad gør man som data scientist og borger, når man bliver sendt hjem og sat til at hjælpe samfundet mod corona ved at sidde derhjemme og stirre ind i skærmen?
Man går selvfølgelig i gang med at lege med data - og helst coronarelateret data.
Rundt omkring skyder visualiseringer og diagrammer og langt mere kunstfærdige og forståelige grafer op ude på diverse blogs, i tweets og Linkedin-artikler, end myndighederne og de etablerede medier kan mønstre. Rigtig 'citizen data science' - eller 'borger-videnskab' må være det danske ord.
Borger-videnskab på langs
For mig startede corona-krisen med, at jeg blev syg. Men heldigvis er der rimeligt meget adspredelse i dagens Danmark på både Netflix, flow - og så de mange rundtomkring, der laver deres egne epidemi-statistikker.
Derfor fulgte jeg lidt med i, hvad der skete af dataarbejde rundt omkring - både i de kommercielle medier samt Twitter og Linkedin, der flyder over med både gode og mindre gode visualiseringer og prognoser. Og af kompetenceniveauer.
Kode i den demokratiske debat
Under en pandemi ser man pludselig politikere med meget forskellige data- og sundhedsviden - der er alt fra Stinus Lindgreen (bioinformatiker og MF) til Donald Trump, der ytrer sig, som om han var ekspert. Lindgreen er faktisk også forsker i bioinformatik og baserer sine spørgsmål og kommentarer på en stærk naturvidenskabelig baggrund uden at skryde, mens Trump… ja, han er jo Trump.
Og nej - mange af corona-data-borgerne er ikke eksperter i epidemiologi. Men de fleste af dem, der har sat sig ned og kodet visualiseringer, har dog et ben inde i nogle af de discipliner. Måske fra en økonomi-vinkel eller en bioinformatik-vinkel, og nogle gange kan de tværfaglige input være ret interessante.
Mon ikke dele af de pip, der lyder rundt omkring på nettet, ender som peer reviewed forskning?Jeg har her hovedsageligt medtaget Twitter-indlæg, da de jo er offentlige og nemt kan indlejres.
Må sidde med lineal
I de dataprojekter, jeg har været en del af, har jeg oplevet, at data har haft status af noget,man skulle holde tæt ind til kroppen. Det var lig publikationer og bevillinger.
Men når man sidder midt i en pandemisk krise, kan man godt synes, at data måske burde være en smule mere gennemsigtigt, så der kunne komme nye indsigter. Men det har ikke stoppet folk.
Mange har siddet med linealer og sjusset sig frem til data, da der ikke altid er udgivet tabeller, men grafer, og har måttet rekonstruere data ved at måle sig frem eller regne baglæns. Derfor kommer der garanteret et boom i visualiseringer nu, hvor i hvert fald nogle data og metoder er blevet offentliggjort (og selvfølgelig gjort tilgængelige af en corona-data-borger på GitHub). Pressemeddelelsen er her.
Hvilke tal er vigtige? Forskydelse af antal ny-indlagte og antal døde
Medio april var de eneste parametre for, hvordan det virkelig ser ud i Danmark, de ny-indlagte, de døde og respiratorpatienterne. Derfor blev jeg særligt glad for denne overskuelige graf fra ingeniøren 'JJ', der så fint samlede, nogenlunde hvad vi vidste per 19. april:
Thread: Tog antallet af ny-indlagte og antallet af døde dagligt i% og plottede dem ind på en graf med 11 marts som dag 0. Ny-indlagte toppede efter 14 dage og antal døde efter 21 dage. Hvad fortæller det os så om udviklingen i antallet af ny-smittede efter lockdown'en ? #dkpol 1 pic.twitter.com/D5MYm3aX1T
— JJ (@me_marco) April 19, 2020
Morten Kjeldgaard, der har arbejdet med proteinstrukturer, laver daglige opdateringer, og grafen har virkelig meget information i sig. Den giver efter min mening et bedre billede af udviklingen i Danmark, end de fleste danske medier formår:
Dagens #covid19dk tal d. 5/5. Vi har stort set det samme at sige som de sidste adskillige dage, men nu hvor vi ikke har flyverstreger i himlen at se på, kan kurverne her måske gøre det ud for samme. I går blev knap 13.000 testede, 151 fundet positive. 10 mennesker døde. #cvdgdk pic.twitter.com/ZC7pA5xZqe
— Morten Kjeldgaard (@mortenkj) May 5, 2020
Reproduktion/Smittetryk
Så er der R. For to måneder siden var det et programmeringssprog, der fyldte 20 år (i 1.0-udgaven), og som bruges af mange til netop statistik og programmering. I dag er det smittetrykket, der beregnes fra R0 (afhænger af, hvor smitsom sygdommen er, hvor mange personer man er i nærheden af, og hvor lang tid man kan smitte). BeklageR forvirringen.
Der er forskellige udgaver af SIR-modellen, og Statens Seruminstitut (SSI) har i skrivende stund ikke offentliggjort metoden. Der ventes spændt rundt omkring med R-skriptsne parat. (høhø)
Af de mere interessante, der er kommet ud af SoMe-data-battlen, er fx lektor i statskundskab, Martin Vinæs Larsens visualisering af smittetrykket over tid (her 5. maj):
Hvis nogle skulle være nysgerrige, så har jeg beregnet smittetryk på baggrund af den metode @SSI_dk netop har offentliggjort. Jeg kan ikke helt få det til at passe, men måske skyldes det at de præcise data fra Landspatientsregisteret ikke er offentliggjort. pic.twitter.com/u3KCfQiu1Z
— Martin Vinæs - 100.000 test om dagen (@mvinaes) May 5, 2020
Også Christian Heebøl, der er farmaceut, har lavet en god forklaring på, hvordan R beregnes, og hvad det betyder (visualiseringen er vist Statens Serum Instituts).
Han har desuden lavet denne simulator af R, hvor man kan beregne udviklingen i R for mange lande baseret på enten cases eller dødsfald.
Prognoser og simuleringer
Biostatistikeren Claus Thorn Ekstrøm har lavet en fin introduktion til R og SIR-modellen samt de udvidede SIR-modeller, som kan være mere hensigtsmæssige at bruge. Der ligger selvfølgelig også R-kode på github.
Ekstrøm har også lavet en simulator, så man kan prøve modellerne af med forskellige parametre uden selv at skulle kode.
Mikkel Freltoft Krogsholm, der arbejder som data scientist, har også leget med prognoser - og har vedlagt R-koden. Og så kan man jo arbejde videre med den, hvis man vil:
For næsten 3 uger siden lavede jeg en forecast på udviklingen af COVID 19 hospitaliseringer i Danmark. Den har vist sig ikke at være helt tosset. Og modsat SSI, så vil jeg gerne dele min kode med jer. Den ligger her:https://t.co/sXrKtSw3l6#dkpol #dksund #COVID19 pic.twitter.com/nBsgxovXo4
— Mikkel Krogsholm (@mikkelkrogsholm) May 4, 2020
Teaser: Corona-forskningsprojekt på vej
Mit eget forskningsprojekt er også blevet ændret en smule og har fået en smag af corona. Mere om det i næste blog.
Post gerne links til jeres yndlings-corona-grafer!

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.