per andersen bloghoved

Hadoop har næppe gennemslagskraft i markedet

Hadoop har fået en masse opmærksomhed i det, som analytikere giver betegnelsen ”big data”. De første eksempler på brugen af Hadoop findes. Men jeg er skeptisk over for teknologiens gennemslagskraft.

Det har ikke det fjerneste at gøre med teknologien som teknologi – faktisk har ikke-relationelle database teknologier levet lige så længe som relationelle, så tanken er på ingen måde ny. Jeg afviser heller ikke på nogen måde, at Hadoop finder sin egen niche inden for massiv databehandling af specielt ustruktueret data i/fra skyen – eller hos virksomheder, der arbejder med datamænger i 20-30 petabyte størrelsen.

Men jeg kan ikke se, det bliver en mainstream teknologi. Faktisk er der mange lighedstræk med udviklingen af MPP systemerne (massively parallel processing), der en overgang i 1990erne var på manges læber: Nu kunne man skalere computerkraft op til en næsten vilkårlig størrelse ved brug af billige komponenter – noget alle ville have brug for. I dag lever MPP systemer sin stille tilværelse som niche-teknologi for de relativt få, der har brug for supercomputere. Pudsigt nok er de slet ikke så billige.

Samme skæbne forudser jeg for Hadoop og lignende NoSQL teknologier. Vi kan jo lige tage testen for markedspotentiale for nye teknologier (jf Geoffrey A. Moore m.fl.):

1) Relativ fordel: Ja, her scorer Hadoop højt, for det giver virkelig nye muligheder
2) Kompatibel med eksisterende teknologier: Nej (RDBMS fx)
3) Lav kompleksitet: Nej
4) Nemt at kommunikere: Nej, kun delvist – ja, faktisk hersker der en del forvirring om teknologierne.
5) Testbarhed: Det er svært – kræver meget
6) Inerti fra eksisterende produkter: Meget stor – DB markedet er stort og modent
7) Reversibilitet: Det er ikke nemt at afprøve/installere teknologien og så droppe den igen for alternativer

Så det er rigtigt, at det er en god ide – men teknologien mangler en lang række markeds-karakteristika for at kunne blive en mainstream-teknologi. Præcis som det var tilfældet med MPP-systemerne.

IDC har netop offentliggjort deres første rapport om denne type teknologi. Tilsyneladende meget positiv og aggressiv: Dette område vil vokse ikke mindre end 60% om året og nå en værdi (software) på $800 mio. i 2016 (http://www.idc.com/getdoc.jsp?containerId=prUS23471212).

Faktisk underbygger dette blot ovenstående vurdering. Vækstrater betyder intet når markedet kommer fra ingen værdi – og $800 mio. vil faktisk kun være omkring 2% af det totale database-marked, og det endda om 4 år – og tro mig, IDC laver ikke en forsigtig prognose. Så er det nok til at blive en mainstream-teknologi? Næppe! Mit bud er, næste år snakker vi om noget andet spændende, der har set dagens lys.

Kommentarer (7)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Jacob Gorm Hansen

Hadoop bygger paa MapReduce som Google opfandt for at loese et praktisk problem de havde for ti aar siden. De havde en kaempe webfarm og en masse logfiler, og var traette af at koere grep gennem ssh. Dvs. deres data var spredt ud og de havde brug for at aggregere dem. I dag kan man koebe servere med 1-2TB RAM, og det er baade lettere og hurtigere at samle alle sine data her, og lave rapporter over dem loebende, med mindre altsaa man har dem i en kaempe webfarm i Google-format, hvilket de faerreste er tvunget ud i. Jeg var for nyligt til et foredrag hos Microsoft Research i Cambridge, hvor de havde forsoegt at loese et machine learning problem med Hadoop (eller anden MapReduce-afledt teknologi), paa et stor cluster. De fandt sjovt nok at det var langt hurtigere og billigere at samle alle data i en enkelt maskine med 192GB RAM og mange kerner, og loese problemet der. Ikke saa sexet, men hurtigere og billigere. Jeg tror de sagde maskinen kostede $8000, hvilket jo er smaapenge for de fleste. Se deres slides her: http://research.microsoft.com/en-us/events/msrcsw2012/dnarayan-bigmemory... .

  • 4
  • 0
Rune Larsen

Hadoop løser primært et nicheproblem - tung, offline data crunching.

På samme måde må vi indse, at de traditionelle RDBMS'er løser et specifikt problem: persistering af data i statiske strukturer i ikke-distribuerede systemer, hvor der kan tolereres nedetid og begrænset skalerbarhed for skrivninger.

Så snart man bevæger sig væk fra disse forudsætninger, så er der bedre alternativer blandt NoSQL databaserne. NoSQL (Not only SQL) bevægelsen handler netop om, at anvende det database-system, der passer til opgaven. Noget vi har forsømt i de seneste årtier - måske fordi vi har bygget så mange administrative systemer baseret på centrale databaser. Verden ændrer sig.

I dag er en stor del af vores liv flyttet fra monolitiske systemer til højt distribuerede systemer. Alt tyder på at flytteriet ud i skyen fortsætter - her forventer alle altid at kunne bidrage. For mange forretninger er det i dag vigtigere, at kunne skalere til millioner brugere, end om en opdatering tager et sekund at propagere ud i alle hjørnerne af systemet. Desuden skal forretningen fortsætte selv om centrale komponenter er midlertidigt nede eller frakoblet. De traditionelle RDBMS'er tilbyder transaktioner og andre konsistens-garantier, som i teori og praksis umuliggør høj tilgængelighed i en verden hvor data er distribuerede.

Væksten hos NoSQL-databaser som Riak, Hadoop, Neo4J, Cassandra, MongoDB, CouchBase osv. sker som følge af stigningen i anvendelser, hvor RDBMS'er er arkitektonisk dårligt egnede.

  • 6
  • 0
Martin Kofoed

Hadoop er "noget storage" (HDFS) med en hulens masse API'er og libraries ovenpå. Derfor giver det heller ikke rigtigt mening at sammenligne det med klassiske RDBMS'er, der er skabt til at tilbyde transaktionel persistens af data i normaliserede datamodeller, og gør dette til perfektion.

Hadoop (og lignende) kan benyttes et utal af steder, men efter min mening aldrig som et alternativ til en RDBMS backend. Man kan derimod forestille sig at fodre et Hadoop-cluster med data fra et RDBMS, og så bygge real-time web-systemer op oven på det. Nogle af de eksempler, jeg har set, har sparet en DB2/Z-backend for et utal af MIPS (= $$$), og har kunnet levere real-time BI-data i stedet for natlige batch jobs. DET er noget, der kan omsættes til kroner og ører for en organisation.

Mange af nutidens websystemer kunne slet ikke bygges på toppen af et traditionelt RDBMS. Twitter ville være en teknisk umulighed, ganske enkelt.

Det er i dét lys, Hadoop og lign. skal ses.

  • 0
  • 0
Preben Høj Holmberg

http://www.cubrid.org/blog/web-2-0/decomposing-twitter-database-perspect...

Ganske glimrende overblik omkring Twitter og Databaser.

Her en meget kort artikel om Twitter og Facebook`s anvendelse
af NoSQL-Databaser
+ Slides fra lektion med titlen: "Big Data in Real-Time at Twitter"

http://www.readwriteweb.com/cloud/2011/01/how-twitter-uses-nosql.php

  • 0
  • 0
Allan Ebdrup

Med den udvikling der er med flere og flere cores per chip, og grænsen for hvad man kan med en enkelt boks til stadighed flyttes, så er og bliver Hadoop en nicheprodukt.
Det er fint at du skrive "Hadoop og lignende NoSQL teknologier". Så går jeg ud fra at det ikke indbefatter databaser som Riak og MongoDB. Hvilke NoSQL databaser taler du om? (du kunne måske forvirre nogle læsere til at tro at du taler om alle NoSql databaser)
Faktisk vil jeg fraråde at bruge Riak eller Mongo, hvis du regner med at skulle bruge map-reduce i stort omfang, det er slet ikke det der er deres sweetspot.
Som jeg skrev i mit blogindlæg om praktiske erfaringer med MongoDB og Node.js:
http://www.version2.dk/blog/nodejs-og-mongodb-efter-et-halvt-aar-i-deres...
Så er Mongo ikke det rette datastore til at trække rapporter fra i stor stil.

  • 0
  • 0
Stig Torngaard Hammeken

Det er mig uforståeligt at du kan kalde dig selv for it-trendspotter og så ikke se perspektiverne i Hadoop og Big Data. Jeg har arbejdet med Business Intelligence professionelt siden midt halvfemserne, heraf de sidste 12 år i BI-huset Platon, og det er min/vores klare opfattelse, at både Hadoop og "Big Data" som tema, bliver et paradigmeskifte for branchen og ikke mindst for de kunder der adopterer det. Det er bestemt ikke en døgnflue!

Du kan måske have ret i at Hadoop i dag i sin "rå form" måske er noget svær tilgængelig for masserne - HDFS og MapReduce. Når det er sagt, så er Hadoop meget mere end det. Hvis man abstrahere lidt fra teknologien og i stedet kigger på det den muliggør, så arbejder vi i Platon bl.a. med helt nye "Information Use Cases" vi kun tidligere kunne drømme om. Vi har endnu kun set toppen af dette isbjeg, men for rigtig mange behøver man ikke at vide, at det er Hadoop der ligger "under vandet" - for det er netop anvendelsesscenariet og de forretningsmæssige muligheder der er det interessant - mange kan slet ikke løses uden Hadoop i en eller anden form.

Hvis man ser på BI landskabets (store) teknologileverandører, så har de stort set alle taget Hadoop til sig (i forskellige form) - det værende SAS, IBM, Oracle, Informatica, Microsoft og mange flere. Der investeres rigtig store summer i dette univers og meget af udviklingen går tilbage til (Apache) "communitiet" som f.eks Hadoop on Windows, Hive-ODBC driver og JavaScripting fra Microsoft. Dette faktum er i sig selv et paradigmeskifte og faciliterer Hadoop og økosystemet der omgiver, finder anvendelse langt uden for open source verden. Når Cloud Computing slår bedre igennem, vil netop Hadoop spille en central rolle som fundamentet under forskellige "Black Box analytiske applikationer", som alle virksomheder/organisationer - små som store - kan købe sig taxameter adgang til. Et godt eksempel er f.eks. "Social Analytics" hvor man køber sig adgang til et struktureret informations-/analysegrundlag, som en service, der udspringer fra avancerede analyser på et ustruktureret datagrundlag.

I BI verden er Haddop (og Big Data) er kommet for at blive - det er et paradigmeskifte!

  • 1
  • 0
Nikolaj Brinch Jørgensen

I BI verden er Haddop (og Big Data) er kommet for at blive - det er et paradigmeskifte!


Efter også at have spenderet 12 år i BI branchen (dog for SAS), kan jeg kun tilslutte mig dette, og det vrøvl artiklen konkluderer må bunde i uvidenhed.
Det er heller ikke uden grund at de største og mest succesrige internet-baserede systemer (Amazon, Facebook, Google, eBay, Twitter, Yahoo osv. osv. osv.) bygger på denne teknologi (RDBMS skalerer simpelthen ikke).

Se iøvrigt her for en reference: http://wiki.apache.org/hadoop/PoweredBy og her for Cassandra http://en.wikipedia.org/wiki/Apache_Cassandra#Prominent_users
Du finder stort set ikke en stor teknologivirksomhed som ikke benytter denne teknologi.

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize