Hvor slem bliver influenzasæsonen i år? Big data vil igen forsøge at give svaret

Forskere fra Harvard har udviklet en ny big data-model, som giver langt bedre prognoser for influenza end Googles Flu Trends-værktøj.

Anvendelsen af big data til at forudsige omfanget af pandemier og andre epidemiske sygdomme kan stå foran en genfødsel. Prognosticering af smitsomme folkesygdomme er vigtige for at kunne planlægge omfanget af beredskab og vaccination af befolkningen.

Baggrunden for den nye optimisme er en ny big data-model, som netop er præsenteret i tidskriftet Proceedings of National Academy of Sciences. Modellen, som omfattes som andengenerationsteknologi, overgår første generation fra Google, kaldet Google Flu Trends, og andre modeller med mindst dobbelt præcision, skriver Arstechnica.

Google brugte søgedata fra nettet til at forudsige influenzaudbrud i det virkelige liv. Men problemet med Google Flu Trends-værktøjet, som kom ud i 2008, er ifølge New York Times, at det undervurderede H1N1-svineinfluenzaen i 2009 og spåede 50 procent flere tilfælde af influenza i sæsonen 2011-12, end hvad de amerikanske sundhedsmyndigheder kunne observere.

Læs også: Google overdriver influenzavarsler for tredje år i træk

Billedet med overestimering var det samme i 2012-13. Den store fejlbedømmelse af virkeligheden betød en stille død for værktøjet, der opstod i 2008.

Efterfølgende led trackeren en stille død.

Harvard-forskere har angiveligt udviklet en måde at tæmme de uregerlige data på, kombinere dem med andre datasæt og løbende kalibrere dem for at kunne spore influenzaudbrud med færre fejl.

Big data har en stort potentiale, siger Samuel Kou, som er statistikprofessor ved Harvard University og medforfatter på afhandlingen.

»Det er bare et spørgsmål om at bruge de rigtige analytics,« sagde han.

Ny datamodel opbygget på Googles rester

Kou og hans kolleger har opbygget deres model på basis af Googles influenzasporingsmodel. Forskernes kalder den nye model for ARGO (autoregressiv med Google-søgningsdata).

Google Flu Trends estimerede dybeste set antallet af influenzatilfælde ved at se på tendenser i internetsøgeord som hovedpine og kulderystelser, .

Disse søgeord blev korreleret med data om influenzaudbrud indsamlet af det amerikanske Centers for Disease Control. CDC-data stammer fra klinisk afrapportering i hele landet.

Tog ikke højde for ændringer i søgeadfærd

Et af de fatale problemer ved Googles model var, at det ikke højde for ændringer i folks søgeadfærd, siger Samuel Kou.

I 2012-2013 søgte mange mennesker efter nyheder om influenzasæsonen snarere end at søge efter influenzasymptomer. Over tid anvendte folk også forskellige udtryk, selv om de søgte efter de samme ting.

Google har naturligvis aldrig udgivet de rå data bag Google Flu Trends, så Kou kender ikke den nøjagtige måde, som tallene blev brugt på.

Kou og hans kolleger har alene haft adgang til de offentligt tilgængelige data fra Google Trends og Google Correlate. Men det har altså været nok til at bygge den nye model ud fra.

Den nye model korrigerer selv for ændringer i, hvordan folk søger. Modellen har et toårigt såkaldt glidende vindue, hvor det kalibrerer aktuelle søgninger med langsigtede tendenser og igen med CDC-historiske influenzadata. De sikrer også imod fejlfarvning med søgetermer, der knytter sig til sæsonbestemte influenzatendenser. Endelig har de indarbejdet data for historiske sæsonudsving i influenza.

Resultatet er en model, hvis resultater i høj grad har udkonkurreret Google Flu Trends' skøn for perioden marts 2009 til juli 2015.

Forskere mener desuden, at modellerne fremover kan optimeres ved at tilføje flere datakilder fra bl.a. Twitter og Facebook.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize