Dansk ph.d.-studerende 10-dobler ydelsen i database-søgninger: Vil bygge millionvirksomhed på sin forskning

Hvordan kan Facebook bedst foreslå dig nye venner? Hvor mange forskellige skuespiller-par har spillet sammen i mindst én film? Den slags spørgsmål kan Rasmus Resen Amossens forskning give et hurtigt svar på - og det kan være mange penge værd.

For mange virksomheder er databasen flaskehalsen, når det handler om ydelse. Der bruges der mange resurser på at forbedre ydelsen, og derfor forsker Rasmus Resen Amossen i, hvordan man kan få forespørgsler til at gå hurtigere. Om to måneder skal han aflevere sit ph.d-projekt på området.

Ydelsen kan forbedres på forskellige måder, fortæller han. Man kan prøve at tilgå data på en smartere måde, tilgå mindre mængder data, eller prøver at øge den mængde data, man kan behandle i et givent tidsrum.

»Og jeg har lavet noget inden for alle tre kategorier. En stor del af det jeg har kigget på, er hvordan man kan finde relationer mellem enheder.«

Facebook har for eksempel en funktion, som kan anbefale nye potentielle bekendtskaber.

»Det er dine venners venner, den foreslår, men da Facebook har over 300 millioner brugere, er alle par af potentielle venner rigtig hårdt at beregne. Derfor bliver man nødt til at gøre det smart.«

Et andet eksempel på at finde relationer kan være at finde to skuespillere, der har spillet sammen i mindst én film, ud fra filmdatabasen IMDB.

Problemet består i, at man typisk kommer til at behandle samme par mange gange. I Rasmus Resen Amossens eksperiment med skuespillerparene kiggede han på 37.000 skuespillere og 8.100 film. Her fandt han 676 millioner skuespillerpar, men kun 70 millioner, godt en tiendedel, af disse var forskellige. Hvis man ikke gør noget smart, kommer man i snit til at behandle samme par ti gange. Det er spild af arbejde.

Andre områder er økonomi, hvor man ved at kigge på boner fra supermarkeder kunne finde ud af, hvad folk ofte køber sammen med andre varer.

Færre data giver hurtigere søgninger

En anden problemstilling er, hvordan man kan behandle mindre mængder af data.

»Data bliver lagt ned i databasen på den måde, som den nu gør, men det følger typisk ikke det tilgangsmønster, der efterfølgende er til de data. Hvis man lægger data ned i databasen og tilgår det på på en bestemt måde, udnytter databasen det ikke. Ofte er databasen derfor nødt til at håndtere en masse data, selvom kun en lille del er relevant for en given forespørgsel.«

Her har Rasmus Resen Amossen fundet på noget, som skal danne grundlag for en ny virksomhed.

»Mange synes det er utroligt interessant, så nu prøver jeg at gå videre med det og stable en virksomhed på benene og få en investor.«

Den tredje mulighed er at prøve at øge mængden af data man kan tilgå i et givent tidsrum. Her har Rasmus Resen Amossen prøvet at kanalisere databasens beregninger over på grafikkortets kerner, og det har også givet væsentlige forbedringer i ydelse.

Kæmpe marked for databaseforbedringer

Det er ideen om at behandle færre data, som har et kommercielt potentiale. Med en investering på 4,5 millioner kan Rasmus Resen Amossen nå et marked på 710 millioner årligt, vurderer han.

»Det lokker mig lidt at gå ud og prøve at bruge det i det virkelige liv.«

Teknologien kan iføølge Rasmus Resen Amossen skydes ind som et mellemlag i de store kommercielle databaseleverandørers produkter.

»Jeg har lavet nogle indledende tests, som viser, at jeg i visse tilfælde kan få 90 procents ressourcereduktion. Det svarer groft sagt til ti gange forbedring af ydelsen, afhængig af et antal faktorer: Hvis jeg skal tilgå ti procent af den data jeg ellers skulle tilgå, så kan jeg forvente at hver forespørgsel går ca. ti gange så hurtigt.«

I mange tilfælde er en forbedring på bare to gange noget, som er værd at stræbe efter.

»Man kan købe mere hardware, men hvis du køber dobbelt så dyr hardware, går du ikke dobbelt op i ydelse. Derfor er der et marked for det her.«

Rasmus Resen Amossen skal aflevere sin ph.d-afhandling sidst i november. Han har taget sin kandidatgrad på DIKU, men læser ph.d. på ITU.

Version2 starter med denne artikel en ny serie om aktuel, it-relateret ph.d-forskning.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (6)
Troels Arvin

Jeg kan forstå, at det med grafikkort er blandt tiltagene mht. at "øge den mængde data, man kan behandle i et givent tidsrum". Men artiklen beskriver ikke rigtig noget om, hvordan de to andre mål angribes.

Hvordan tilgås data på en smartere måde, dvs. hvordan undgås det at data gen-behandles unødigt? Og hvordan er det at mindre datamængder skal tilgås - der står blot, at Amossen har "fundet på noget".

Kan niveauet ikke hæves lidt?

John Vedsegaard

Problemet er ofte at de anvendte databaser er overgearede til deres formål.

Mange relationsdatabaser indeholder i virkeligheden kun ganske få oplysninger, tag f.eks. De Gule Sider, der er ekstremt langsomt, men i virkeligheden indeholder sådan en database kun få felter for hver enkelt post.

Tager man eksemplet Facebook,burde det kunne bygges på nogle få index, måske er det allerede sådan og jeg syntes data kommer nogenlunde hurtigt.

Ser man på google går det i forvejen meget hurtigt, selv om det sagtens kunne forbedres, for eksempel så alle søgte data kan opbevares lokalt i en database med 1 index, indeholdende søgeordene og resultaterne. Så skal søgningen kun kikke efter nyere data, ikke de gamle igen. Det smarte ved sådan en database, er at den nemt kan laves så man kan vælge at have flere versioner af f.eks. de samme hjemmesider.

De reduktioner i søgningerne Rasmus taler om, er smart i sig selv, hvis det kan lade sig gøre og man alligevel vil få de ønskede data frem, måske har google allerede sådan et system. Har Rasmus fundet på en ny algoritme til formålet, spår jeg hans firma en fremtid der vil noget, særligt hvis det kan patenteres. 90% reduktion er ganske meget, selv om det nok er optimistisk, 20-30% har også en voldsomt stor betydning, faktisk så meget at de fleste store databaser vil være nødt til at købe det.

Den med at bruge grafik kort til databehandling tror jeg til gengæld ikke meget på. der skal simpelthen bare nogle bedre computere til, vi taler jo nok ikke om hjemmecomputere i den her forbindelse.

Henrik Christiansen

jeg tror vidst der mangler nogle detaljer. Tror næppe én dansk ph.d studerende, gennem hans uddannelse bare lige sådan har opfundet en bedre måde at gøre tingene på end fx oracle, eller andre store database firmaer ikke har tænkt på. Vil tro database-søgning skal specificeres MEGET mere ud i detaljer, og det måske er en lille bitte niche del, der i den store sammenhæng måske kan betyde promille forbedringer. Det lyder alt for smart og godt til at være sandt, bare det jeg vil sige med det.

Log ind eller Opret konto for at kommentere
Pressemeddelelser

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017

Affecto has the solution and the tools you need

According to GDPR, you are required to be in control of all of your personally identifiable and sensitive data. There are only a few software tools on the market to support this requirement today.
13. sep 2017