Forskersøgemaskine kan løse videnparadoks

Ved hjælp af den avancerede computerteknologi machine learning har en gruppe danske it-iværksættere udviklet en teknologi, der gør det lettere at gøre nye videnskabelige opdagelser.

Forskere står i dag med et paradoks. Aldrig før har adgangen til viden været så udbredt og mulighederne for at lave nyskabende forskning så gunstige. Hvert år bliver der produceret 8-9 pct. mere forskning end det foregående år, og det giver en fordobling af produktionen på blot ni år.

Med andre ord har det aldrig været lettere at ‘stå på skuldrene af giganter’ og bygge videre på kollegers forskning.

Det er i hvert fald teorien. I praksis viser det sig dog langt sværere, for hvordan finder man som forsker frem til lige præcis de videnskabelige artikler, der fører til gennembruddet?

Jo mere forskning der bliver produceret, desto sværere bliver det også at finde guldkornene.

Det problem har den danske it-iværksætter Mads Rydahl sat sig for at løse.

Han var produkt- og designchef på den personlige digitale assistent Siri, der siden blev solgt til Apple og nu findes på millioner af iPhones verden over.

»Menneskelig viden kommer til at accelerere på en måde, så det bliver sværere og sværere for en forsker at blive ekspert inden for et område,« siger Mads Rydahl og fortsætter:

»Der publiceres mere og mere data og fakta, du skal forholde dig til, hvis du skal opfinde noget nyt.«

Mads Rydahl har taget erfaringerne fra Siri med at få computere til at forstå menneskesprog – en disciplin også kendt som Natural Language Processing (NLP) – med over i den danske startup Unsilo. Her arbejder holdet med en teknologi, der blandt andet bruger machine learning til at finde relevant forskning på tværs af forskellige forskningsfelter.

Det er en teknologi, som på mange måder er det diametralt modsatte af Googles søgemaskine.

Bryder med citat-tyranni

Enhver forskningsartikel bliver i dag målt og vejet på, hvor meget den bliver citeret i andre artikler. Det er sådan, en artikel bliver kendt og ikke mindst anerkendt for sit bidrag til forskningen.

Logikken bag denne tradition kan dog være problematisk. Den fungerer nemlig efter samme princip som Googles algoritme, der sorterer søgeresultaterne efter, hvor mange henvisninger den enkelte hjemmeside har på nettet. Eller sagt på en anden måde: Det mest populære indhold vinder.

I forskningen sker nytænkning og gennembrud dog ikke nødvendigvis på baggrund af, hvad der er mest populært, så Unsilos værktøjer forsøger at forstå betydningen af forskningsartiklernes indhold og gøre indholdet mere søgbart for forskerne.

På den måde søger man ikke efter popularitet, men snarere efter det, som er mest relevant for lige netop det problem, man arbejder med.

Hvis man eksempelvis søger efter ‘insulin-følsomhed hos buttede børn’, så vil Unsilo forstå betydningen og også inkludere artikler i resultaterne, der handler om ‘overvægtige piger med nedsat hormon-respons’.

Millioner af artikler

Traditionelt er videnskabelige artikler kategoriseret med en række emneord og en beskrivelse, som forfatteren selv eller en redaktør har skrevet. Og det kan være med til at begrænse andre forskeres muligheder for at finde den mest relevante forskning.

»En grundlæggende problematik i den relationelle proces er, at man ofte kun søger i det her summary. Det kunne være, der var en superinteressant detalje på side 5, som
ikke kom med i summary, fordi den ikke var central for den artikel,« siger Mads Rydahl.

Unsilos svar på den udfordring er at bruge NLP og machine learning til at analysere millioner af forskningsartikler og registrere betydningen af alle sætningerne. Det handler blandt andet om at forstå logiske sammenhænge i teksterne, og hvordan forskellige ord refererer til hinanden.

Samtidig kan teknologien også forstå ord med flere mulige betydninger ud fra sammenhængen. Eksempelvis kan det engelske ord ‘bank’ referere til enten en bank med penge i eller en flodbred, alt efter om teksten handler om aktier og pengeoverførsler eller om kanoer og krokodiller.

På samme måde kan Unsilo identificere hundredvis af grundlæggende koncepter i en artikel og gøre dem søgbare efter relevans. Og at skabe overblik over millioner af koncepter i tusinder eller millioner af artikler er et punkt, hvor computere ifølge Mads Rydahl langt overgår mennesker.

»Ingen menneskelige redaktører kan rumme sporadiske fakta, som er spredt ud over al verdens forskning og sammensætte dem,« siger han og fortsætter:

»Baggrunden for de næste 20 års teknologiske landvindinger inden for videnskabelig forskning vil være, at vi bliver bedre til at kombinere relevant viden. Maskinerne giver os et meget større indblik i, hvad vi ved.«

Ideen til Unsilo opstod i 2010 takket være et insekt ved navn bombarderbillen.

Billen havde nemlig pludselig fået meget opmærksomhed fra forskere – ikke biologer, som man ellers kunne forvente, men en gruppe af ingeniører. De så en mulighed i billen, fordi den var i stand til at producere meget små dråber af gift, som den kunne sprøjte ud i selvforsvar ved lavt tryk.

Normalt kræver det ellers et højt tryk at drive et forstøvningssystem, som man eksempelvis bruger i grøntsagsafdelingen i supermarkedet, men ved at lade sig inspirere af billens biologi fandt ingeniørerne en måde at udvikle forstøvningssystemer til industrien på, der blandt andet bruger varme i stedet for højt tryk til at producere de bittesmå dråber af væske.

Denne tværvidenskabelige opdagelse vakte Unsilo-stifterne Thomas Laursen og Mads Rydahls interesse.

Forskningens discovery-problem

Hvis der var så stort et potentiale i ingeniørmæssige opfindelser inspireret af biologien, hvordan kunne man så gøre det lettere for forskerne at finde relevante videnskabelige artikler på tværs af flere forskningsfelter?

»Der er et discovery-problem blandt forskerne. Til biologi-konferencer er det kun biologer, der kommer og holder foredrag for hinanden. Der er ikke nogen ingeniører eller produktudviklere, der kommer for at blive inspireret,« siger Mads Rydahl.

Med Unsilo forsøger it-iværksætterne at bygge bro mellem forskningsfelterne ved hjælp af deres semantiske søgeteknologi. På den måde vil ingeniører, der søger efter forstøvningssystemer også kunne støde på forskningsartikler, der handler om billers pulserende giftsprøjt.

I begyndelsen var ambitionen at lave en global søgemaskine for al forskning. Den idé har Unsilo dog lagt på hylden indtil videre, da de fleste videnskabelige artikler er ejet af en lille gruppe forlag, som ikke har interesse i at gøre alle deres artikler offentligt tilgængelige på et sted.

I stedet har Unsilo indgået aftaler med flere af verdens største videnskabelige forlag, heriblandt Springer Nature, om at bruge den nye søgeteknologi på forlagenes egne udgivelser.

»Med de aftaler vi har nu, kan vi desværre kun levere tjenester på forlagenes egne platforme. Så hvis vi laver en bredere videnskabelig opdagelsesplatform, vil det nok være i samarbejde med vores partnere,« siger Mads Rydahl.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize