Danske dataloger vil bevise at computere ikke altid kan klare beregningerne

Mange beregninger inden for f.eks. Big Data-sammenhænge afvikles i dag for langsomt på computere. Nu undersøger forskere på Aarhus Universitet, om det overhovedet kan lade sig gøre at finde algoritmer, der sikrer en tilstrækkelig beregningshastighed.

Ny forskning fra Aarhus Universitet skal bevise, at visse beregningsproblemer - typisk af meget store datamængder - umuligt kan løses effektivt med en computer. Det kan spare både forskningsmidler og tid, der ellers ville være spildt i forsøg på at udvikle løsninger, der ikke findes.

Projektet handler egentlig om en klassisk problemstilling, som teoretiske dataloger har forsøgt at løse i over 40 år: Nemlig om konkrete beregningsproblemer altid kan løses mere effektivt og hurtigt ved hjælp af en computer.

Et konkret eksempel på et sådant beregningsproblem er, når man vil beregne afstanden og dermed forskellen på to menneskelige genomer. Det kan anvendes til at vurdere, hvordan en tumor hos en kræftpatient er muteret.

Men det kan være, at computeren simpelthen kommer til kort:

»Der er masser af problemer, hvor det går for langsomt, fordi vi ikke har effektive algoritmer. Her er det selvfølgelig interessant at spørge, om det overhovedet kan lade sig gøre. I projektets ene del vil vi undersøge, om det kan lade sig gøre at søge mere effektivt i databaser, og den anden del handler om, hvor hurtigt man kan regne og analysere på enorme datamængder,« siger adjunkt, ph.d. Kasper Green Larsen, der er tilknyttet det datalogiske center MADALGO, der hører under Danmarks Grundforskningsfond ved Aarhus Universitet.

Tunge beregninger anvendes inden for bioinformatik

Forskningen kan få stor betydning inden for bioinformatikken, hvor man netop bruger dna-sekventering for at undersøge, om en bestemt medicin virker godt på en tumor. Det menneskelige genom består at tre milliarder basepar, og det kan en computer typisk kigge igennem på en halv time.

Men skal man også beregne afstanden - og dermed forskellen - mellem to menneskelige genomer, er man ude i et regnestykke på tre milliarder kvadrerede operationer. Det giver tallet ni efterfulgt af 18 nuller.

Ifølge Kasper Green Larsen troede mange forskere indtil for nylig, at beregningen kunne løses mere effektivt. Bare man havde de rigtige algoritmer. Men forskere fra MIT påviste sidste år, at det beregningsmæssigt er umuligt, hvilket vil sige, at selv de bedste computere over lang tid ikke vil kunne generere et svar.

»Det er faktisk et reelt problem, fordi det skal selvfølgelig helst ikke tage computeren mere end en dag at regne ud, hvordan en tumor hos en kræftpatient er muteret. Budskabet med resultatet fra MIT er, at man aldrig kan lave en blackbox-løsning, der effektivt kan beregne forskellene mellem vilkårlige DNA-strenge. Derfor prøver man i praksis at udnytte, at menneskelige genomer ligner hinanden rigtigt meget. Denne viden skal udnyttes til at gøre algoritmerne hurtigere,« siger Kasper Green Larsen.

Når man så har et sådant problem, som ikke kan 'løses' effektivt, er der flere forskellige ting, man kan prøve.

Nogle gange er svaret, at man i stedet udregner noget der tilnærmelsesvis er rigtigt.

»Hvis man tillader lidt fejl i svaret, bliver beregningsproblemerne nogle gange simplere,« siger Kasper Green Larsen til Version2.

»For andre problemstillinger igen er der simpelthen intet, vi kan gøre,« tilføjer han.

Dvs. konklusionen bliver, at man med visse beregninger aldrig vil kunne få en computer til at løse beregningsproblemet, fordi datamængderne er for store og for komplekse.

Kasper Green Larsen har modtaget en bevilling på fem mio. kr. fra Villum Fonden og 1,64 mio. kr. fra Aarhus Universitets Forskningsfond. Det betyder, at han nu kan udvide forskningsgruppen to ph.d.’ere og en post.doc.

Bevillingen er en del af en pulje på 119 millioner kr., som Villum Fonden uddeler til 20 unge forskere hvert år. Villum Fonden er en almennyttig fond, der støtter forskning, miljø og bæredygtighed samt kulturelle og sociale projekter.

Følg forløbet

Kommentarer (15)

Anne-Marie Krogsbøll

Sikke et interessant projekt. Det ville jo spare os for mange problemer, hvis det viser sig, at forskerrobotter slet ikke er så effektive, som det lige nu foregøgles os. Så kan det være, at fristen til at kæmpe for retten til at beholde sine privatlivsdata er lidt længere, end det lige nu ser ud til (hvor fristen vist er tæt på at være overskredet). Og så går der måske alligevel lidt længere tid, inden mennesker er endegyldigt overflødige...

Troels Henriksen

Sikke et interessant projekt. Det ville jo spare os for mange problemer, hvis det viser sig, at forskerrobotter slet ikke er så effektive, som det lige nu foregøgles os.

Det her lugter mere af et forskningsprojekt der skal vise at et eller andet problem er NP-hårdt eller lignende. Konklusionen på den slags opdagelser er aldrig "så må vi hellere lade være", men derimod "hvordan laver man så en approksimationsalgoritme?" Det står endda i artiklen!

Anne-Marie Krogsbøll

Og dog:
"Dvs. konklusionen bliver, at man med visse beregninger aldrig vil kunne få en computer til at løse beregningsproblemet, fordi datamængderne er for store og for komplekse."

Det lyder som om, der i de situationer ville skulle accepteres en urimeligt stor fejlmargin.

Johnnie Hougaard Nielsen

Konklusionen på den slags opdagelser er aldrig "så må vi hellere lade være", men derimod "hvordan laver man så en approksimationsalgoritme?"

Netop. Alternativt at overveje om den pågældende målestok for forskellighed er den nødvendigvis rigtige.

Den teoretisk brugbare metode er antagelig baseret på en matematisk formel, og disse er typisk formuleret ud fra at være så kompakt "elegante" som muligt - uden smålige hensyn som om de egner sig til en praktisk implementering.

Fx er det jo "let" at lave sortering af kæmpestore datamængder med en helt generel algoritme, med dens indbyggede skala for tidsforbrug. Men en som kender til strukturen i datamængden vil ofte kunne lave en meget hurtigere metode.

Som nævnt i artiklen:

Derfor prøver man i praksis at udnytte, at menneskelige genomer ligner hinanden rigtigt meget. Denne viden skal udnyttes til, at gøre algoritmerne hurtigere,«

Torben Mogensen Blogger

Det konkrete problem, som MIT viste umuligt at gøre hurtigere, er problemet med at finde "edit distance" mellem to tegnfølger: Hvor mange indsættelser, sletninger og udskift af tegn, skal der mindst til for at lave den ene tegnfølge om til den anden? Der findes en ret enkel metode, der bruger O(n²) tid, men da gensekvenser for et helt genom er meget lange, er selv det uoverkommeligt. MIT-forskerne viste så, at det ikke kan gøres hurtigere end O(n²), så i stedet for at lede forgæves efter f.eks. en O(n×log(n)) algoritme, må man hellere lede efter approximative algoritmer eller finde et andet mål for lighed mellem gensekvenser (hvilket er lidt af det samme).

Bjarne Nielsen

Jeg kan godt forstå, hvis man kan blive skræmt over, hvad der er muligt, og hvor naiv en tilgang man tilsyneladende oftest har til det. Men løsningen er IMHO ikke at forsøge at stoppe udviklingen, løsningen må være at styre den.

Der er sikkert nogle, som mener, at verden havde været et bedre sted, hvis ikke Einstein og Bohr var kommet på deres vilde ideer ... eller i det mindste havde holdt det for dem selv. Men tænk, hvad vi så havde gået glip af!

I samme tråd, så kan jeg huske, at jeg som dreng bladrede i gamle blade, hvor man begejstret forestillede sig en verden med flyvende biler drevet af en lille atompille. Det blev så ikke til noget.

Så lad os endelig blive klogere på, hvad vi "kan" og lad os endelig tage en god og åben diskussion om, hvad vi så "vil". Nogle anvendelser er nok for farlige, men mon ikke der også er mange, som vil være helt fantastiske?

Derfor synes jeg også, at det er meget spændende, det som man har gang i der.

Anne-Marie Krogsbøll

Bjarne Nielsen:

Jeg kunne bare godt tænke mig, at bremserne blev slået lidt, sådan at vi ikke hele tiden bliver overhalet af udviklingen, inden vi har nået at tage stilling til den.

F.eks. mht. Big Data. Efter min mening skulle man holde en "time out", hvor man fik etiske overvejelser, persondatasikkerhed og jura på plads. Disse ting kommer jo hele tiden halsende efter den digitale udvikling. Vi bliver hele tiden taget på sengen, og opdager problemerne for sent.

Mht. Big data og forskermaskiner så er det mit indtryk at politikerne allerede er ved at sælge os til stanglakrids på det felt. Ingen tid til overvejelser - ingen tid til, at befolkningen kan nå at opdage, hvad der sker, før det er for sent. Ingen åben debat om, om befolkningen faktisk synes, at udviklingen er værd at ofre privatlivet for.

Økonomiske hensyn får lov at styre udviklingen, uden at det bliver debatteret åbent. Så det er i virkeligheden måske ikke så meget selve teknologien, jeg er bekymret for - det er det magtmisbrug, jeg synes omgiver den, og som den bidrager til.

Jesper Louis Andersen

Hvad i alverden er en "forskermaskine"?

Det er en ikke-teknisk forklaring på et system hvor forskere kan få adgang til fortrolige data på en måde, så uvedkommende ikke har adgang til data.

Typisk er implementationen en VPN-forbindelse, og maskinen selv er virtualiseret og står isoleret i et data center. Tilgangen er så remote-desktop-tilgang til denne maskine.

Ideen er at man derved undgår at persondata flyder væk fra et isoleret miljø. Man forsøger at undgå en tidligere situation, fra Region Sydsjælland, hvor en database er kopieret i et væk men pludselig viser sig at være ulovlig.

Det grundliggende etiske spørgsmål er en svær balancegang. Mange temmeligt imponerende forskningsresultater kan kun lade sig gøre med udspring i Skandinavien fordi vi er et af de få steder hvor vi har fuldstændig information om stort set alle. Mange andre steder i verden er det at skabe sig en fyldestgørende sample i sig selv uhyggeligt svært. Men med fuldstændig information, er det også nødvendigt at vide hvem der har adgang til den. Og eftersom at digitale data er persistente og ikke flygtige, så forskermaskinerne.

Jesper Louis Andersen

Mht. Big data og forskermaskiner så er det mit indtryk at politikerne allerede er ved at sælge os til stanglakrids på det felt. Ingen tid til overvejelser - ingen tid til, at befolkningen kan nå at opdage, hvad der sker, før det er for sent. Ingen åben debat om, om befolkningen faktisk synes, at udviklingen er værd at ofre privatlivet for.

Min personlige hypotese er at Big Data er oversolgt. Det har i praksis meget mindre værdi end der gives udtryk for. Derfor er det også trist at så mange systemer opsamler en masse data om dets brugere, uden at denne data har nogensomhelst direkte værdi. Man samler bare alt op, og så håber man på at der, måske, er en værdi at finde senere. Dette burde datatilsynet kunne være meget skrappere overfor.

I forbindelse med forskning er problemet et lidt andet. Skandinavien generelt har gennemført rigtigt meget vigtig forskning i sunhed og biologi netop fordi man har et så godt overblik over de enkelte personer. Men i modsætning til tidligere skal man ikke længere have fysisk adgang til journaler for at kunne grave. Det gøres meget nemmere i databaser, og her er der afgjort en vigtig diskussion: hvem skal have adgang til databaserne, og i hvor høj grad.

I begge tilfælde er hovedreglen om at digitale data formerer sig vigtig. Men det aner politikere ikke hvad er og de forstår heller ikke konsekvenserne af det. Dels fordi de ikke lytter på dem der forstår teknik, dels fordi emnet er nyt og ingen rigtig ved hvad der kommer til at ske.

Anne-Marie Krogsbøll

Jesper Louis Andersen:

Jeg kan følge mange af dine overvejelser, og det er jo netop sådanne, jeg efterlyser, at vore politikere satte tid af til.

"Det er en ikke-teknisk forklaring på et system hvor forskere kan få adgang til fortrolige data på en måde, så uvedkommende ikke har adgang til data."

Ja, og der falder jeg allerede over ordet "uvedkommende" som et af de "farlige" ord i debatten. For når forskere og politikere lover, at "uvedkommende" ikke får adgang, så forstår de noget helt andet ved "vedkommende" end den typiske borger vil forstå ved det. I lang tid troede jeg, at "vedkommende" betød, at det kun var lige præcist de forskere og det pågældende forskningsprojekt, der havde adgang, og jeg sagde typisk ja til at deltage, med det formål at støtte den offentlige forskning.

Men det er efterhånden gået op for mig, at det er ikke den forståelse, en del forskere og politikere har. I deres udlægning betyder "vedkommende" noget i retning af "alle forskere, der kan få et projekt godkendt", "forskere og erhvervsvirksomheder i udlandet, som vil samarbejde med danske forskere" eller "forskere og erhvervsvirksomheder i udlandet, som er villige til at betale for disse data, og derved booste Danmarks nye eksporteventyr og statskassen."

Der sker altså en alvorlig fejlkommunikation, grænsende til egentlig bevidst vildledning, til befolkningen om, hvad det faktisk er, man gør. Samtykker formuleres helt bevidst så tåget, at forsøgspersonerne i praksis ikke aner, hvad de siger ja til - ganske som med cookies. Og "vedkommende", som har adgang til data, er udvidet til en i praksis helt enorm stor kreds - hvilket både er et privatlivsproblem og et datasikkerhedsproblem.

Derudover er der store etiske problemstillinger, som f.eks. om det nødvendigvis er et ubetinget gode at kunne få kortlagt sit genom - på et tidspunkt hvor vi ikke er i stand til at skelne, i hvilken grad evt. afvigelser vil medføre sygdom eller ej, og hvor vi ikke kan behandle de fleste af de arvelige sygdomme, dette kan afdække.

Og hvor vi heller ikke har taget stilling til, hvordan evt. fund skal have lov til at bestemme menneskers liv: Hvordan med forsikringer? Hvornår skal man oplyse en evt. vordende kæreste om, at man har en "defekt"? Osv.

Vil disse forskermaskiner overhovedet medføre et bedre liv for "befolkningen", eller vil de primært bidrage til, at de allerrigeste bare bliver endnu rigere - på vores andres bekostning?

Vi halter langt bagefter med at overveje disse ting, og i praksis er det den teknologiske udvikling, der tager beslutningerne for os, hvor det burde være befolkningen og politikerne. Og når det er den teknologiske udvikling, der styrer, så er det i sidste ende pengene, der bestemmer - og derved reduceres vi borgere til pludseligt primært at være råstof for disse maskiner - uden egentlige rettigheder i forhold til disse.

Når det lige nu bobler og gærer mht. f.eks. Watson Health herhjemme, og hvor vi med garanti er ret tæt på at give denne adgang til vore data, så aner 99 % af befolkningen ikke, hvad Watson Health overhovedet er.

Man aner ikke, at en af Watson Healths fornemmeste opgaver i visse politikeres øjne lige nu er, at den kan kickstarte et nyt dansk eksporteventyr af danske sundhedsdata - for det er IKKE lige nu den enkelte patient, der får bedre behandling.

Jeg vil påstå, at udviklingen drives af økonomiske interesser, og så selvfølgelig af forskere, der ikke kan vente med at få spændende (og givtige?) projekter kørt igennem i samarbejde med medicinalindustrien - som så pludseligt også har adgang til data, og som kommer til at styre, hvad der vil blive forsket i. Hvilket ikke nødvendigvis er de projekter, der kunne gavne folkesundheden, men som derimod vil gavne bundlinjen i Novo eller Lundbeck (eller andre) - hvilket stort set altid vil være det modsatte af at gavne folkesundheden.

Indtil for nylig var retten til privatliv alment accepteret begreb - ingen stillede spørgsmålstegn ved det - det var noget grundlæggende og indlysende. Men den teknologiske udvikling, grådige forskere og visse politikere har i det stille undermineret begrebet. Lyt f-eks. til indslaget om "grunddata" et stykke inde i denne udgave af "aflyttet": http://www.radio24syv.dk/programmer/aflyttet/12965908/aflyttet-uge-9-2016/

Her bliver retten til privatliv udsat for et "paradigmeskift" i retning af mindre privatliv og mere erhvervsliv. Hvem alverden har givet vore politikere ret til at ekspropriere vores privatliv til økonomisk udnyttelse, uden overhovedet at diskutere det med os? Det sker simpelthen under radaren, hvor man gør sit bedste for, at ingen opdager, hvad man har gang i. Watson Health vil få DAMD-sagen til at blegne, for det er jo endnu flere følsomme helbredsdata (og andre data?) man vil samle i denne - uden samtykke!

Så med disse maskiners indtog i det skjulte, er man i fuld gang med at voldtage befolkningen, som reduceres til "råstof" for de rigeste. Watson Health er et totalitært stykke superlegetøj, som bliver endnu et redskab til at uddybe kløften mellem toppen og bunden i samfundet, både økonomisk og mht. magt.

Politikerne burde stritte imod denne udvikling, men de gør det modsatte - godt hjulpet af lobbyister, og - hvem ved? - måske endda lobbyister med forskellige former for "kuverter" i inderlommen?

Anne-Marie Krogsbøll

I denne uge er der en ny, aldeles glimrende "Aflyttet", der sætter fokus på Big Data, "Smart Cities", TTIP og hele udviklingen i EU på dette område.

Udsendelsen er rystende at høre!!! Endnu en gang er fantasien langt bagud for virkeligheden.

IBM har for eksempel sponsoreret udviklingen af "smart city" i Barcelona, indtil en mere venstreorienteret borgmester heldigvis er lykkedes med at stoppe udviklingen netop pga. uacceptabel overvågning i den sammenhæng.

Nu er IBM i gang med at snige samme udvikling igennem herhjemme - ganske uden offentlig debat om, for hvilken pris vi vil sælge vores ret til privatliv. Hvad vil IBM have til gengæld for at betale for den teknologiske udvikling i vore byer? For IBM er jo ikke nogen almennyttig virksomhed - det kommer til at koste på anden vis - med vores privatliv.

http://www.radio24syv.dk/programmer/aflyttet/13007008/aflyttet-uge-10-2016/

Gert Madsen

hvor forskere kan få adgang til fortrolige data på en måde, så uvedkommende ikke har adgang til data.


Så kunne vi måske begynde med at få fastslået, at man ikke automatisk bliver "vedkommende", fordi man påstår sig at være "forsker".

Og vi skal generelt have sat nogle rammer, som tager hånd om den kedelige kendsgerning at "forskere" også er tilfals, dovne og fejlbarlige, præcis som andre mennesker
Det nytter ikke fortsat at undlade alle begrænsninger, ved at hævde at arbejde for "et højere mål".

Log ind eller opret en konto for at skrive kommentarer

JobfinderJob i it-branchen