Biologi-forskning ææælsker big data: Vælter sig i hele befolkningers genomer

BIG DATA: Datamængderne eksploderer inden for den biologiske forskning, der er et af de store big data-områder.

På det biologiske område, som omfatter medicin, genetik, fødevarer, bakterier osv., er man i gang med at producere data, som man slet ikke kendte til for 30 år siden. Det skyldes først og fremmest, at metoderne til at måle biologiske systemer er blevet industrialiserede, og nu varetages af maskiner, som kan gøre det lynhurtigt. Fra at blive brugt på celler og gener, er man nu også i gang med alle kroppens proteiner.

»Når man industrialiserer noget, og det er ligegyldig om det er sko, dynebetræk eller biler, så vil der ske det, at omkostningerne falder eksponentielt,« siger Søren Brunak fra Center for Biologisk Sekvensanalyse på DTU.

»Det samme er sket inden for biologien. Men hvor man for ti år siden troede, at den genetiske sekventering ville blive centraliseret, er realiteten blevet den omvendte. Man har lavet sekventering om til en desktopløsning. Nu får man problemer, når man pludselig skal flytte 100 terabyte data fra et sted til et andet. Så store datamænger kan ikke sendes over nettet, og derfor flytter man nu data med lastbiler og fly. Store harddiske sendes med Fedex, for selvom en lastbil er ret langsom, har den en enorm båndbredde,« forklarer Søren Brunak.

For nogle år siden mente man, at gridløsninger var løsninger for alting. Ved at fordele beregningsopgaver ud på millioner af personlige computere, kunne man ligesom i crowdsourcing-projekter som f.eks. ceti@home beregne alt muligt, og i tilgift gøre almindelige mennesker interesserede i forskningen.

Problemet er bare, at det inden for biologien ikke kun er regnekraften, det kommer an på. Udfordringen er snarere muligheden for at få data hurtigt ind og ud af harddisken, det såkaldte I/O-problem, samt - og måske især - sikkerheden.

Biologiske data er værdifulde

Biologi er i en meget anderledes situation end fysik og astronomi, forklarer Søren Brunak, fordi data i de sidstnævnte tilfælde ikke har en kommerciel værdi, og derfor er det meget lettere at dele og analysere mellem mange mennesker. Der er ikke nogen, der vil stjæle data fra Cern, da det koster mere at have dem lagret, end hvad man kan tjene på dem.

»Det er en helt anden situation, når man har dna-sekvenser for hele befolkninger eller elektroniske patientjournaler. Her har data en helt anden status, fordi individuelle dna-sekvenser potentielt er penge værd for dem, der udvikler medicin. Data fra life science minder derfor mere om data fra bankverdenen, og det er her, vi må blive inspirerede til at finde løsninger på problemerne omkring om sikkerhed,« siger Søren Brunak.

Søren Brunak er selv uddannet fysiker og fattede tidligt interesse for neurale netværk og maskinlæring. Kompetencer på disse områder viste sig at være særdeles nyttige, da områderne systembiologi og bioinformatik for alvor dukkede op i 1980'erne.

I dag er evnen til at håndtere big data inden for systembiologien ikke blot et uundgåeligt resultat af kortlægningen af organismers genomer og proteomer. Det er også et vigtigt redskab til at udvikle metoder til fremtidens personaliserede medicin, og til f.eks. at opdage, hvordan sygdomme optræder samtidigt, det man kalder komorbiditeter.

Sygdomme hænger sammen

»Sygdomme er jo traditionelt blevet studeret én ad gangen, men patienter har som regel mere end en sygdom. Vi er interesserede i at finde ud af, hvordan nogle gener er involveret i mere end én sygdom. Hvis der er en mutation et sted, så kan den ytre sig på flere måder. Og hvis du har patientjournalerne og dermed det komplette sygdomsbillede, også over tid, vil du kunne opdage nogle sammenhænge, man tidligere ikke har haft mulighed for at se,« forklarer Søren Brunak.

Der vil også komme mange data i forbindelse med monitorering af patienter i deres hjem. En dag vil blodtryksmåleren måske kunne bruges ligesom vandmåleren derhjemme og sende meldinger tilbage til sygehuset i tilfælde af pludselige forandringer. Hele selvmonitoreringsbevægelsen er også i gang med at revolutionere, hvad det vil sige at bruge big data på én selv, især hvis det også bliver koblet til at datasæt fra f.eks. miljø og livsstil. Læger drømmer om en fremtid, hvor man har præcist personaliseret medicin, altså medicin, der passer til folks særlige genversioner og livsmiljø, fordi de ved, at meget af den eksisterende medicin enten slet ikke virker eller har store bivirkninger.

»Hele datagrundlaget for det skal jo skabes ved, at man sekventerer hele befolkninger. I det øjeblik, hvor det koster 100 kroner at sekventere dit genom, så vil du måske få det sekventeret en gang om måneden for at se, hvad der er sket med det. Og hvis du har en hurtigt fremskridende sygdom vil du måske få det sekventeret hver dag eller hver uge for at se, hvordan terapien fungerer,« siger Søren Brunak.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (9)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
David Rechnagel Udsen

'Big Data' er et begreb der stammer fra udtryk som 'Big Oil', 'Big Content', etc., som har rod i erhvervslivet. Det er en måde at karakterisere elementer af industrien som hovedsagligt har kontrol over et område (om det er olie, indhold eller data), og gerne karakterisere dem negativt, da de ofte misbruger denne magtposition.

'Big Data' betyder ikke meget data.

  • 3
  • 1
David Rechnagel Udsen

Hmm, udfra Wikipedia artiklen om emnet forstår jeg det faktisk bare som arbejde med extremt store dataset. Der nævnes intet i stil med "elementer af industrien som hovedsagligt har kontrol over et område". Hvor har du din definition fra?

Jeg har set Big Data blive brugt om virksomheder som Google, Amazon og Facebook i flere artikler. Jeg har dog aldrig læst Wikipedia-artiklen. Men et begreb som 'Big Data' for »meget data« virker lidt tyndt, især når der er en etableret standard for 'Big X' for virksomheder der sidder på X. Begrebet er så standardiseret, at jeg ofte ser det blive brugt humoristisk, såsom 'Big Baby' (i sammenhængen med en 'skandale' om at babyer fik gratis pleje i USA), etc.

Det er på samme måde som at tro at »bjørnetjeneste« betyder en »stor tjeneste«, det er et ligegyldigt begreb, hvorimod »bjørnetjeneste« og 'Big Data' (i den betydning jeg mener de har) er begreber der er svære at erstatte med så få tegn/stavelser.

  • 1
  • 0
Troels Nielsen

"Big Data" er præcis som wikipedia siger: arbejde med særligt store og komplekse datamængder og bruges af folk i industrien og rundt om, primært i præcis den betydelse. At begrebet knyttes til Google, Amazon og Facebook skyldes at de virksomheders primære forretningsområder omhandler arbejde med ekstremt store og komplekse dataset. Ikke at virksomhederne i sig er store, eller at de er de største virksomheder der primært arbejder med data. (Det er nok Big Finance :) )

Jeg tror dog du har ret i at grunden til at "Big Data"-udtrykket er faldet i så god jord hos folk i almindelighed er at det passer godt ind i Big X-familien og derfor føles familiært selvom det er rimeligt nyt.

Det er et buzzword og som sådan vil betydelsen erodere indtil utrykket ikke længere fylder nogen semantisk funktion. Indtil da, betyder "Big Data" dog hvad wikipedia artiklen siger og det er muligt at software-økosystemet rundt om Big Data (de distribuerede nosql databaser, hadoop, storm etc.) vil fortsætte at bruge termen i sin oprindelige betydelse langt efter at udtrykket er blevet gammelt i offentligheden. (Lidt ligesom sker med Cloud p.t.)

Big Data er ikke negativt og artiklens brug af udtrykket er korrekt.

  • 2
  • 0
Preben Høj Holmberg

"Credit for coining the term must be shared. In particular, John Mashey and others at Silicon Graphics produced highly relevant (unpublished, non-academic) work in the mid-1990s. The first significant academic references (independent of each other and of Silicon Graphics) appear to be Weiss and Indurkhya (1998) in computer science and Diebold (2000) in statistics /econometrics. Douglas Laney of Gartner also produced insightful work (again unpublished and non-academic) slightly later."

Eller denne lidt dybere artikel om emnet:
http://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etym...

  • 0
  • 0
Mads Buch

Dataen er i sin natur vigtig. Den er ret dyr at opbevare, og man vil derfor ikke gemme det, hvis ikke man kunne bruge den til noget.

Jeg har ligeledes altid brugt termen, og hørt den brugt om store datamængder. Det er første gang jeg støder på big data som en politisk term.

Og ja, blot store datamængder. Det er dog først inden for de seneste år der er kommet værktøjer til at arbejde med dem (som i høj grad er udviklet af de store virksomheder), så derfor mener jeg at termen er relevant endnu.

  • 1
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize