På det biologiske område, som omfatter medicin, genetik, fødevarer, bakterier osv., er man i gang med at producere data, som man slet ikke kendte til for 30 år siden. Det skyldes først og fremmest, at metoderne til at måle biologiske systemer er blevet industrialiserede, og nu varetages af maskiner, som kan gøre det lynhurtigt. Fra at blive brugt på celler og gener, er man nu også i gang med alle kroppens proteiner.
»Når man industrialiserer noget, og det er ligegyldig om det er sko, dynebetræk eller biler, så vil der ske det, at omkostningerne falder eksponentielt,« siger Søren Brunak fra Center for Biologisk Sekvensanalyse på DTU.
»Det samme er sket inden for biologien. Men hvor man for ti år siden troede, at den genetiske sekventering ville blive centraliseret, er realiteten blevet den omvendte. Man har lavet sekventering om til en desktopløsning. Nu får man problemer, når man pludselig skal flytte 100 terabyte data fra et sted til et andet. Så store datamænger kan ikke sendes over nettet, og derfor flytter man nu data med lastbiler og fly. Store harddiske sendes med Fedex, for selvom en lastbil er ret langsom, har den en enorm båndbredde,« forklarer Søren Brunak.
For nogle år siden mente man, at gridløsninger var løsninger for alting. Ved at fordele beregningsopgaver ud på millioner af personlige computere, kunne man ligesom i crowdsourcing-projekter som f.eks. ceti@home beregne alt muligt, og i tilgift gøre almindelige mennesker interesserede i forskningen.
Problemet er bare, at det inden for biologien ikke kun er regnekraften, det kommer an på. Udfordringen er snarere muligheden for at få data hurtigt ind og ud af harddisken, det såkaldte I/O-problem, samt - og måske især - sikkerheden.
Biologiske data er værdifulde
Biologi er i en meget anderledes situation end fysik og astronomi, forklarer Søren Brunak, fordi data i de sidstnævnte tilfælde ikke har en kommerciel værdi, og derfor er det meget lettere at dele og analysere mellem mange mennesker. Der er ikke nogen, der vil stjæle data fra Cern, da det koster mere at have dem lagret, end hvad man kan tjene på dem.
»Det er en helt anden situation, når man har dna-sekvenser for hele befolkninger eller elektroniske patientjournaler. Her har data en helt anden status, fordi individuelle dna-sekvenser potentielt er penge værd for dem, der udvikler medicin. Data fra life science minder derfor mere om data fra bankverdenen, og det er her, vi må blive inspirerede til at finde løsninger på problemerne omkring om sikkerhed,« siger Søren Brunak.
Søren Brunak er selv uddannet fysiker og fattede tidligt interesse for neurale netværk og maskinlæring. Kompetencer på disse områder viste sig at være særdeles nyttige, da områderne systembiologi og bioinformatik for alvor dukkede op i 1980'erne.
I dag er evnen til at håndtere big data inden for systembiologien ikke blot et uundgåeligt resultat af kortlægningen af organismers genomer og proteomer. Det er også et vigtigt redskab til at udvikle metoder til fremtidens personaliserede medicin, og til f.eks. at opdage, hvordan sygdomme optræder samtidigt, det man kalder komorbiditeter.
Sygdomme hænger sammen
»Sygdomme er jo traditionelt blevet studeret én ad gangen, men patienter har som regel mere end en sygdom. Vi er interesserede i at finde ud af, hvordan nogle gener er involveret i mere end én sygdom. Hvis der er en mutation et sted, så kan den ytre sig på flere måder. Og hvis du har patientjournalerne og dermed det komplette sygdomsbillede, også over tid, vil du kunne opdage nogle sammenhænge, man tidligere ikke har haft mulighed for at se,« forklarer Søren Brunak.
Der vil også komme mange data i forbindelse med monitorering af patienter i deres hjem. En dag vil blodtryksmåleren måske kunne bruges ligesom vandmåleren derhjemme og sende meldinger tilbage til sygehuset i tilfælde af pludselige forandringer. Hele selvmonitoreringsbevægelsen er også i gang med at revolutionere, hvad det vil sige at bruge big data på én selv, især hvis det også bliver koblet til at datasæt fra f.eks. miljø og livsstil. Læger drømmer om en fremtid, hvor man har præcist personaliseret medicin, altså medicin, der passer til folks særlige genversioner og livsmiljø, fordi de ved, at meget af den eksisterende medicin enten slet ikke virker eller har store bivirkninger.
»Hele datagrundlaget for det skal jo skabes ved, at man sekventerer hele befolkninger. I det øjeblik, hvor det koster 100 kroner at sekventere dit genom, så vil du måske få det sekventeret en gang om måneden for at se, hvad der er sket med det. Og hvis du har en hurtigt fremskridende sygdom vil du måske få det sekventeret hver dag eller hver uge for at se, hvordan terapien fungerer,« siger Søren Brunak.