Skaberen af Hadoop: Open source er den hemmelige ingrediens i succes

Illustration: techmsg/Flickr
Hvis jeg havde forsøgt at tage penge for det, var det aldrig blevet til noget, fortæller Doug Cutting, der står bag open source-software som Hadoop og Lucene.

»Hvis du gerne vil have succes, så har du større chancer med open source.«

Sådan lyder budskabet fra Doug Cutting, der er skaber af både big data-frameworket Hadoop og søgemaskinesoftwaren Lucene.

»For nogle typer teknologier er open source en hemmelig ingrediens i succes,« fortæller han på SAS's Global Forum-konference, der netop har fundet sted i Denver, Colorado.

»Vi har set det igen og igen. Linux er for eksempel et af verdens mest succesfulde operativsystemer, som kører på alt fra ure til mainframes. Vi ser meget machine learning foregå i open source. Det er en trend,« siger Doug Cutting, der i dag er chief architect hos Cloudera.

»Der er nogle, der mener, det er mere risikabelt at satse på open source. Men den frygt er typisk basere på ubegrundet paranoia. I praksis ser man, at der er leverandører, der understøtter det, der er communities, og det er langt mere stabilt over langt tid.«

Hadoops ikoniske elefant-logo kommer sig af en bamse, som Doug Cuttings søn havde. Bamsen hed Hadoop. Illustration: Hadoop

Data der rådner

Doug Cutting lærte for alvor værdien af open source med søgemaskinesoftwaren Lucene. Kimen til Lucene blev lagt allerede i 80’erne, hvor Cutting blev ansat af Xerox.

»Jeg blev bedt om at se på information retrieval og søgninger på tværs af mange dokumenter. Det var, før the web virkelig skete,« fortæller Doug Cutting.

»Den data, som Xerox var fokuseret på, var dokumenter, der rådnede op i arkivskabe. De så en mulighed i at scanne den information og bringe den online. Vi forsøgte at bygge, hvad vi nu kender som en søgemaskine.«

Hos Xerox eksperimenterede man med flere metoder, før man prøvede den relationelle database, som på det tidspunkt var i sin spæde barndom. Opgaven kunne løses med en relationel database, men performance var forfærdelig, siger Doug Cutting.

»I mellemtiden blev relationelle databaser i 80'erne og 90'erne nærmest definitionen på enterprise database. I mange år var praksis, at hvis det ikke var i en relationel database, var det ikke data. Men jeg lærte i begyndelsen, at ikke alle data-opgaver passede ind i den relationelle model.«

Bekymret for hype-boble

I 90'erne tog Doug Cutting arbejde hos internetselskabet Excite, der i dag måske er bedst kendt for at sige nej til at købe Google i 1999 for 750.000 dollars.

Excite havde sat sig for at overhale AltaVista som søgemaskine. AltaVista var på det tidspunkt i stand til at søge i 40 millioner dokumenter. Excite kom op på at søge i 50 millioner dokumenter, før web-boblen bristede og Excite gik konkurs, fortæller Doug Cutting.

»Jeg var bekymret for hypen, og mens jeg var i Excite tænkte jeg, at jeg skulle have noget at falde tilbage på. Søgemaskiner var det jeg kendte til. Min plan var at lave software og sælge det.«

»Da jeg endelige skulle gøre det gik det op for mig, at mit hjerte ikke var i det. Jeg er ikke en sælger eller en iværksætter. Så jeg tænkte, hvad hvis jeg giver min kode væk som open source. Så ville folk i det mindste bruge koden, som jeg var stolt af. Og jeg ville ikke have, at det bare sad på hylden,« siger Doug Cutting.

I sommeren 2000 udgav han Lucene som open source. 18 år senere er Lucene et af verdens mest succesfulde stykker software til søgemaskiner og anvendes af selskaber som Netflix og Twitter.

Æren går til open source

Doug Cutting ville gerne kunne tilskrive Lucenes succes til fantastisk kode.

»Men det er langt mere sandsynligt, at succesen er drevet af, at det er open source. At folk kan prøve det af uden at indgå nogen som helt formel aftale. At de kan skalere videre til produktion uden at være afhængig af en virksomhed, der kan ændre deres prismodel eller gå konkurs,« fortæller han og tilføjer:

»Hvis jeg havde prøvet at sælge Lucene, havde det nok været en fiasko.«

På et år udviklede der sig et community omkring Lucene, og Doug Cutting kom til Apache, der kunne hjælpe med at administrere og licensere softwaren. Her startede han sammen med Mike Cafarella et nyt projekt – Nutch – der skulle lave web-søgninger baseret på Lucene. Projektet krævede håndtering af store datamængder – mere end hvad der i praksis kunne lade sig gøre med en enkelt almindelig computer. Derfor begyndte de at skalere systemet med flere maskiner.

»I 2003 eller 2004 kom vi til et punkt, hvor vi kunne crawle 100 millioner sider med fem maskiner, men så løb vi ind i en mur. Det tog én mand på fuld tid at køre systemet på fem computere. Det ville tage en hær at køre det på flere,« fortæller Doug Cutting og fortsætter:

»Vi lærte, at distribuerede systemer er langt sværere at lave. Der er så mange måder, hvorpå systemet kan fejle og vil fejle, og det skal du håndtere elegant. Det er kompliceret.«

Løsningen for Cutting og Cafarella kom fra Google, der udgav to forskellige forskningsartikler. En om Google File System (GFS), der beskriver, hvordan man kan lave distribuerede systemer over tusindvis af maskiner. Og en om MapReduce, der sikrer, at softwaren ikke fejler, hvis en maskine går ned.

»Det var lige præcis det, vi havde brug for med Nutch-projektet,« beretter Doug Cutting.

Hadoop bliver født

Der var et klart behov for software, der kunne lade virksomheder behandle store mængder data. Noget som kun Google for alvor var i stand til, fortæller Doug Cutting.

»Muligheden for at have succes med et open source-projekt, der kunne løse det problem, var klar,« forklarer han.

»Men vi var to mennesker, der arbejdede på projektet på deltid. Vi var år fra at have den stabilitet, der skulle til for at gøre systemet brugbart. Vi vidste, vi skulle finde nogle til at finansiere udviklingen.«

I 2006 kom Doug Cutting til Yahoo, hvor de både havde ressourcerne og behovet. Yahoo havde sit eget søgesoftware, og derfor blev den distribuerede fil-håndtering separeret i sit eget projekt.

»Vi havde brug for et navn,« forklarer Doug Cutting.

»Heldigvis havde min søn fået en bamse, som han kaldte for Hadoop. Hvilket jeg synes var et godt navn til et softwareprojekt. Og så havde vi en maskot med det samme.«

Yahoo-projektet blev til Hadoop Distributed File System – HDFS – som er en grundpille i det framework, der i dag går under navnet Hadoop. Og som håndterer enorme datamængder i virksomheder som Facebook, Amazon, LinkedIn og eBay.

Version2 er inviteret til Denver af SAS Institute.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (0)
Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017
Jobfinder Logo
Job fra Jobfinder