Kompleks virkelighed og upræcis software giver fejl i hjerneforskning

3.500 studier kan være i fare, efter at et svensk-britisk forskningsprojekt viser langt mere komplicerede fysiske forhold, end man tidligere har villet erkende.

Opdateret

Forkerte antagelser i software og en virkelighed, der har vist sig at være langt mere kompleks end først antaget, har ført til, at der kan sås tvivl om de seneste 15 års hjerneforskning.

Et svensk-britisk forskningsprojekt med 499 kontrolpersoner og 3 millioner analyser har nemlig påvist, at der gang på gang var fejl i den software, som forskningen anvendte.

I 70 procent af tilfældene gav softwaren falsk positive resultater. Hele problematikken rodfæster sig i, at hjerneforskningen har undervurderet den støj, der bliver udledt fra både kontrolpersoner og fMRI-skanneren, der leverer hjernebillederne. Det har medført, at de statistiske modeller, der er inkorporeret i softwaren, har været for basale.

Læs også: Tusindvis af hjernestudier er fyldt med fejl

Simplificerede antagelser af støj

Alle statistiske modeller i hjerneforskning er opbygget med et antal forudbestemte antagelser om de data, man har.

»fMRI-data indeholder meget støj både fra magnetkameraet, men også fra forsøgspersonen i form af vejrtrækning, puls og hovedbevægelse. Det er derfor nødvendigt at anvende statistiske modeller for at vide, hvad der er støj, og hvad der er hjerneaktivitet,« forklarer Anders Ekelund, der er lektor på Institut for biomedicinsk teknik på Linköping Universitet.

Anders Ekelund og hans medforfatter, Thomas Nichols, der er seniorforsker i biomedicin på University of Warwick, har imidlertid bevist, at nogle af de antagelser, der ligger i softwaren, er forkerte og meget mere komplekse, end hvad forskerne tidligere har regnet med.

»Som en sammenligning kan man tænke på, hvordan man beregner arealet af et rundt bord. Antager man, at bordet er en cirkel med en helt flad overflade, så kan man bruge formlen A = pi * r * r, hvor r er radius. Hvis bordet ikke er en perfekt cirkel, eller hvis overfladen ikke er helt flad, så vil resultatet være forkert,« fortæller Anders Ekelund.

Færre antagelser er bedre

Når forskerne laver hjerneforskning, bruger de en software, der læser hjernebillederne fra de forsøgspersoner, som man har med i sin forskning. For at læse hjernebillederne bruger softwaren statistiske modeller, der hjælper med at udregne, om der er forskel på personerne.

»Typisk starter man et studie op, hvor man inddrager x antal raske personer og et tilsvarende antal personer, der har en sygdom. Det er blandt disse to grupper af personer, at softwaren prøver at finde forskelligheder,« forklarer Anders Ekelund.

Hjernebilleder består af 50.000-100.000 voxel (3 dimensionale pixels), og netop det relativt store antal voxel gør det muligt for softwaren at finde forskelligheder, men det store antal voxel gør også, at forskerne samtidig skal korrigere for det store antal statistiske test, de kan udføre.

»I vores artikel viste vi, at en anden statistisk metode baseret på færre antagelser fungerer bedre, hvilket en del forskere er begyndt at bruge i stedet,« fortæller Anders Ekelund.

Burde være opdaget tidligere

En af grundene til, at man ikke tidligere har opdaget fejlene, er, at de finansieringskilder, der uddeler midler til forskning, ikke særlig ofte deler midler ud til test af gamle resultater og metoder. I stedet vil de have, at deres midler går til forskning af nye sager.

Anders Ekelund var i den privilegerede situation, at han fra universitetets side havde fået lov til at forske i stort set, hvad han ville, men han peger også på andre årsager til, at forskere ikke tidligere har opdaget fejl i softwaren.

»Da man begyndte med at bruge fMRI omkring 1992, var computere ikke så hurtige, og man var tvunget til at anvende simple statistiske modeller. I dag har vi meget hurtigere computere, hvilket gør det muligt at lave mange analyser for at teste vores software.«

Anders Ekelund fortsætter:

»Andre forskere har anvendt simulerede data for at teste software, men det er vældig svært at simulere en hjerne i et magnetkamera. At anvende rigtige fMRI-data er dyrt, det koster måske 5.000-10.000 SEK. (3.945 - 7.890 kroner, red.) at samle data fra en person. I dag er det mere almindeligt med såkaldt ’data sharing’, hvor forskerne deler deres dataindsamling.«

Alvorlig situation

Ifølge Anders Ekelund er det umuligt at sige, hvor mange studier der er blevet påvirket. Medforfatter Thomas Nichols anslår, at 3.500 studier kan være påvirket, og understreger, at de er påvirkede, men ikke nødvendigvis forkerte. Situationen er alvorlig, men der er ingen grund til at smide al forskning i skraldespanden.

»Ikke al hjerneforskning er ubrugelig. Mange studier om hjernen er gentaget af andre forskere, hvilket tyder på at resultaterne i de tilfælde er korrekte.«

Anders Ekelund forklarer videre, at en anden mulighed også er at kombinere resultaterne fra mange små studier gennem såkaldte meta-analyser for at blive mere sikker på, om resultatet er korrekt eller ej.

Overordnet set har Anders Ekelund efter opdagelserne af de fatale softwarefejl en bøn til forskere rundt omkring på institutter og laboratorier, så forskere undgår lignende fejl i fremtiden:

»Det vigtigste er, at vi forskere stadigt bliver bedre til at dele vores data, så andre forskere kan lave analyser for at verificere resultaterne.«

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (18)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Anne-Marie Krogsbøll

.. men det kunne være rart med nogle eksempler på, hvilke forskningsresultater, der nu kan stilles spørgsmålstegn ved. Psykiatriske? Cancerforskning? Eller...?

"En af grundende til, at man ikke tidligere har opdaget fejlene er, at de finansieringskilder, der uddeler midler til forskning, ikke særlig ofte deler midler ud til test af gamle resultater og metoder. I stedet vil de have, at deres midler går til forskning af nye sager."

Er det ikke noget, vi skal huske i forbindelse med udvikling af AI? At de fejl, der begås i startfasen af denne udvikling, vil forfølge os måske i al fremtid?

Finn Aarup Nielsen

.. men det kunne være rart med nogle eksempler på, hvilke forskningsresultater, der nu kan stilles spørgsmålstegn ved. Psykiatriske? Cancerforskning? Eller...?

Det er hjernestudier der studerer den funktionelle hjerne ("functional neuroimaging"). For cancerforskning er betydningen nok nær nul.

Studierne kan for eksempel klarlægge at visse steder i hjernen respondere specielt til synsindtryk af ansigter ("fusiform face area"). For functional neuroimaging vil man nok ikke drage en "lærebogskonklussion" før flere uafhængige studier er udført og vist det med nogenlunde sikkerhed. Det er min fornemmelse at mange konklussioner i functional neuroimaging er såkaldte "tentative", pga. metodiske udfordringer.

Finn Aarup Nielsen

De "forudsætninger", som omtales - er det det samme som "algoritmer"? Eller er det blot fejlagtige statistiske modeller?

I ét tilfælde (flere software pakker blev undersøgt) var der tale om hvad de kaldte en "bug": "Second, a 15-year-old bug was found in 3dClustSim while testing the three software packages (the bug was fixed by the AFNI group as of May 2015, during preparation of this manuscript). "

Men generelt har problemet været at de statistiske antagelser man gjorde sig ikke holdt. Den komplicerede statistik indeholder en række antagelser og parametre der skal fittes. Der vil altid være en fejl her pga. tilnærmelser. Eklunds studie viser dog fejlen er langt større end man "håbede"

Anne-Marie Krogsbøll

Finn Aarup Nielsen:

Tak for uddybning. Mht. functional imaging - har det så ikke været anvendt til bl.a. at vise hjernefunktion i forskellige psykiatriske sygdomme, eks. depression, sådan at der nu måske skal stilles spørgsmålstegn ved nogle af de teorier, som har ligget til grund for udvikling af forskellige psykofarmaka?

Casper Sønderby

Som jeg forstår Eklunds artikel (har kun skimmet den hurtigt) skal "i 70 procent af tilfældene gav softwaren falsk positive resultater" forstås som:

I 70% af af de undersøgte studier var der mindst en af de statistiske test på voxel eller cluster niveau der gav en falsk positiv, hvor der i hvert studie er lavet mange af sådanne tests. Her ville man normalt forvente 5% falske positive hvis der er korrigeret rigtigt for multiple tests. Det er selvfølgeligt ikke godt, men betyder ikke at konklusionerne i 70% af studierne ikke er rigtige som det ellers let kan (mis)forstås udfra ovenstående artikel. Studierne der drager forkerte konklusioner er vil vaere dem der i forvejen var taet på ikke have statistiske signifikante resultater.

Derudover er det også vigtigt at huske at langt den meste hjerneforskning ikke bruger fMRI hvorfor langt de fleste resultater ikke er berørte af ovenstående.

Se evt
http://blogs.discovermagazine.com/neuroskeptic/2016/07/07/false-positive...
og her hvor forfatterne til artiklen forsøger at få rettet deres artikel så den ikke misfortolkes
http://blogs.warwick.ac.uk/nichols/entry/errata_for_cluster/

Torsten Hagemann

At anvende rigtige fMRI-data er dyrt, det koster måske 5.000-10.000 SEK. (3.9207.846 kroner, red.) at samle data fra en person.

Er det korrekt gættet at beløbet i parantesen er hvis man betragter alle 3.500 studier?

Finn Aarup Nielsen

Tak for uddybning. Mht. functional imaging - har det så ikke været anvendt til bl.a. at vise hjernefunktion i forskellige psykiatriske sygdomme, eks. depression, sådan at der nu måske skal stilles spørgsmålstegn ved nogle af de teorier, som har ligget til grund for udvikling af forskellige psykofarmaka?

Jeg har ikke ført om at fMRI er indgået i udviklingen af psykofarmaka. Det meste fMRI er grundvidenskab. Mig bekendt er udviklingen af psykofamaka slet ikke så fancy. Idéerne er vel blot at et småmolekyle der påvirker hjernereceptorer nok kan have en klinisk effekt. Udviklingen er - mig bekendt - således "blot" en jagt på molekyler med bestemte biokemiske egenskaber. Den endelige effekt testes ved fase tre forsøg hvor man giver piller til patienter og spørger om de er blevet bedre. Her er der slet ingen neuroimaging.

Et af de få steder hvor neuroimaging ville kunne være relevant er med molecular neuroimaging med PET (positron emission tomography) hvor radiotracere, der binder sig til til proteiner af forskellig art (neuroreceptorer og transportere), kan give et billede af en mulig farmakologisk effekt. Specielt kan denne type PET vise med ganske god signal-støj-forhold om småmolekylet kan krydse blodhjernebarrieren.

I nullerne så man big pharma købe sig ind i PET-forskning. Blandt andet forestiller jeg mig at GSK måtte have givet bigshot Tom Nichols (forfatteren på artiklen) et "offer he couldn't refuse": Han var ansat mellem 2006 og 2009 hos GSK (https://dk.linkedin.com/in/thomasenichols). Med finansboblen synes Big Pharmas interesse at have løbet noget ud i sandet. Jeg forestiller mig at de opdagede at human neuroimaging måske ikke var så rentabel.

Finn Aarup Nielsen

Er det korrekt gættet at beløbet i parantesen er hvis man betragter alle 3.500 studier?


Det er nok svært at finde ud af hvad et studie koster, da det meste vel er afskrivning og andre faste udgifter. I følge en sædvanligvis velunderrettet kilde er prisen for en skanning omkring 5.000 danske kroner når en forsker ønsker et skan hos et MR-center. Hvis der er tyve forsøgspersoner må man skulle indregne 100.000 til overførsel til MR-centret.

Er man forsker, der allerede er affilieret med et MR-center, ville man nok normalt kunne finde en kollega der gider at ligge i skanneren på et tidspunkt hvor den ellers ikke er optaget. Så kan man mere eller mindre "gratis" teste nye forsøgsopstillinger.

Samlet ville en løs beregning kunne være 3'500 studier * 5'000 kroner/person * 20 personer/studie = 350 millioner kroner.

Finn Aarup Nielsen
Finn Aarup Nielsen

Det at p-værdi-niveauet er blevet estimeret ganske skævt betyder ikke nødvendigvis at en rapporteret effekt så ikke er der. Det er forkert inferens.

Situationen kan hen af vejen sidestilles med en turist der har været ude at rejser i Afrika og påstår at have set en elefant og taget et billede af den. Når man undersøger turistens fotografi viser det sig at fotoet er uskabt og det er svært at skimte hvad der er på billedet. Så bliver det svært for turisten at bevise eksistensen af elefanten, men derfor kunne der godt have været en elefant. (analogen er ikke helt ækvivalent)

Anne-Marie Krogsbøll

Finn Aarup Nielsen:
Tak for svar.

Nu har jeg ikke lige energi til at tjekke efter lige nu, så jeg kan huske forkert, men jeg mener da, at functional imaging bl.a. bruges til at påvise, at f.eks. depression kan ses bestemte steder i hjernen, og at visse mediciner kan påvirke dette - hvorved en effekt måske er påvist.

I hvert fald har man travlt med at påvise, at psykiske sygdomme skyldes defekter i hjernen, og derfor skal behandles med medicin - meget bekvemt for medicinalindustrien. At det, at man kan se afvigelser i functional imaging, ikke i sig selv påviser en årsagssammenhæng (det kunne være en virkning, ikke en årsag), gås der så ofte let henover.

Hvis jeg husker rigtigt på dette punkt, så er det jo faktisk alvorligt, hvis fejlagtige forudsætninger har ført til skæve konklusioner mht. årsager til psykiske sygdomme og medicins evt. effektivitet.

Finn Aarup Nielsen

jeg mener da, at functional imaging bl.a. bruges til at påvise, at f.eks. depression kan ses bestemte steder i hjernen, og at visse mediciner kan påvirke dette - hvorved en effekt måske er påvist.

Jeg er nok enig med dig i at fMRI-studier kan benyttes til at understøtte en bestemt narrativ. Men - så vidt jeg ved - benyttes fMRI-studier ikke ved markedsgodkendelser af psykofarmaka. En ændring set i hjernen med fMRI vil jo kun være en surrogatmarkør. Effekten bør vurderes så tæt på patientens oplevelse som mulig. Her er f.eks. en skala som Hamilton Rating Scale for Depression nok bedre.

Anne-Marie Krogsbøll

fMri-studier bruges til at overbevise psykiatere om, at psykiske sygdomme er hjernesygdomme, som derfor kræver medicin - det, du kalder at understøtte et bestemt narrativ.
Peter Gøtzsche har allerede påvist, at dette misbruges af medicinalfirmaer, og at forskning baseret på billeddiagnostik indenfor psykiatrien bruges dybt manipuleret og misvisende (Gøtzsche: Dødelig Psykiatri og organiseret fornægtelse, s. 236.)

Denne hjernesygdomstænkning gennemsyrer netop efterhånden det psykiatriske system - hvis der kan stilles yderligere spørgsmålstegn ved kvaliteten af de studier, der peger på psykiske sygdomme som hjernesygdomme, så er det alvorligt, for det er grundlaget for hele vores behandling af denne patientgruppe, uanset om det inddrages i godkendelse af medicinen eller ej - det bruges som markedsføring for medicinalfirmaer.

Hvis der kan stilles alvorlige spørgsmålstegn ved kvaliteten af billeddiagnostisk i hjerneforskningen, så understøtter det Gøtzsches påstande om, at store dele af den psykiatriske forskning bygger på kviksand. (jeg vil understrege, at der selvfølgelig er visse psykiatriske sygdomme, som har en somatisk baggrund, f.eks. delir m.m.)

Mht. Hamilton så har denne skala gjort rigtigt meget skade, idet den kan få stort set os alle sammen diagnosticeret som depressive, hvorved den hovedsageligt hjælper på medicinalfirmaernes profitrater. Og kriterierne i DSM for depression udvides løbende, så flere og flere kan diagnosticeres og gå i medicinfælden.

Effekten bør vurderes så tæt på patientens oplevelse som mulig.


Ja, men Gøtzsches forskning viser, hvor let det er at manipulere med dette, så medicin, der i realiteten er skadelig, kommer til at se ud som om, den gavner patienterne.

Der er netop nu en dokumentar om dette på NRK - kan kun ses i Norge, men det kan de IT-kyndige herinde nok finde en løsning på :-)
https://tv.nrk.no/program/KOID35004714/skuggesida-av-antidepressiva
Men det er lidt et sidespor ift. artiklen.

Log ind eller Opret konto for at kommentere
Brugerundersøgelse Version2
maximize minimize