Sådan gigant-tester Facebook med open source-værktøjet Hadoop

Når Facebook udruller nye funktioner, testes det først på hele lande. Dernæst benyttes open source-værktøjer som Hadoop og Hive til at tygge resultaterne i gennem.

På konferencen Hadoop Summit, som blev afholdt i slutningen af juni, fortalte Facebook hvordan firmaet benytter værktøjer som Hadoop og Hive, når nye funktioner testes og resultaterne skal behandles. Det skriver Infoq.

Hadoop er et Java-baseret framework til analyse af meget store datamængder i et klyngesystem.

Det er sat i verden af Yahoo-programmøren Doug Cutting, som var inspireret af Googles map-reduce-system. Google benytter dette programmeringsmønster, som kort fortalt går ud på at opsplitte et problem i mange delproblemer, når brugere søger efter websider. En samlet løsning dannes så ud fra del-løsningerne.

Map-reduce er et af Googles midler til at skabe hurtige søgninger i de gigantiske datamængder, som ligger bag firmaets indeksering af internettets sider.

Når Facebook skal udrulle nye funktioner, testes den nye funktionalitet først i en testgruppe. Facebooks testgrupper kan ikke måles i sølle tusinder - i stedet er det hele lande, som må agere forsøgskanin.

Da knappen »synes godt om« (»I like«), der giver Facebook-folket mulighed for at give deres mening til kende om hvad som helst på hvilket som helst website, skulle i verden, var der internt i Facebook bekymring for, om knappen, stik imod hensigten ville skrue ned for brugernes aktivitet, med faldende antal sidevisninger og indtægter til følge.

Facebook benyttede Colombia, Venezuela, Argentina og Chile til at teste med, hvor to landes brugere fik den nye knap og de andre to agerede kontrolgruppe.

Testen viste, at antallet af kommentarer blev øget med 4,46 procent i gruppen, der fik »synes om« knappen, mens kontrolgruppen have en stigning på 0,63 procent. Dermed var successen bevist, og knappen kunne rulles ud globalt.

Det var Hadoop, som blev benyttet til den enorme opgave det var, at knuse datamaterialet ned til at give det simple og entydige resultat.

Facebooks Hadoop-klynge gemmer 36 petabytes (36.000 terabytes) ukomprimerede data på over 2.250 maskiner på 23.000 kerner med 32 gigabyte ram på hver maskine.

Hver dag gennemtygges 80 til 90 terabyte. Der er omkring 300 til 400 brugere af systemet som i alt udfører 25.000 jobs på Hadoop-klyngen, hver dag.

Inddata til klyngen stammer fra to kilder: logfiler fra Facebooks webserverklynger, der stammer fra titusindvis af maskiner som spyttes ud hver femte til 15. minut, samt fra MySQL-klyngen på 2.000 noder.

Data fra MySQL består af profiler, vennelister og information om reklamer og kampagner.

Facebook har en såkaldt platin-, guld- og sølv-klynge, hvor platin-klyngen står for de forretningskritiske analyseopgaver. Data replikeres så til guld- og sølv-klyngen, som benyttes til mindre kritiske opgaver.

Replikeringen sker ved hjælp af Hive, et open source-system som Facebook selv er ophav til.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (3)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
s_ mejlhede

Det er da godt at man ikke arbejder for et firma der kun tænker i profit, så heller stadig google.
Det får en til at tænke på at vælge facebook fra, men så mister man jo kontakten, til halvdelen af familien.
Humm, men vi ved jo hvor hurtigt det kan gå på internettet, om et år kan facebook være død.
Var der ikke noget der hed Secoond Life for et par år siden(eller var det kun et år) ?

  • 0
  • 0
s_ mejlhede

Ja, og service over for kunden er ikke vigtigt.
Ja men når hensynet til indtjening blive større ind hensynet til kunden, så mister vi jo det som vi gerne vil have.
En god service, det kan nemelig nemelig aldrig svare sig, da det er dyrt at levere service.
Se på TDC, postdanmark.
Jeg siger bare at det må være irreterende at arbejde i et firma, hvor man kun har sure kunder i telefon røret.
Og at på internet, kan en dårlig service hurtigt giv sig udtryk i at kunder flytter, se hotmail vs. gmail. et par klikket så er man flyttet.
Mens man i det daglige, jo er mere bundet, det er jo svært at få telefon/adsl uden at tdc skal levere kablet, og postdanmark har jo også monopol.
Selv der hvor indtjening ikke er vigtigt. (Men måske besparelser) får man jo ikke altid den service man forventer, se hjemmeplejen.
Min pointe var bare, at facebook satte indtjening over service, og at man på nettet hurtigt flytter sig.
Før de ville lave en forbedring til kunden, skulle de se om det kunne betale sig, det kunne det jo så her.
Men de ende ender jo med at stå stille, og ikke udvikle sig, og så tager andre over, og på nettet kan det ske meget hurtigt.
Google prøver jo nogen gange at lave noget, som måske ikke ser ud til at give afkast, her i nuet, men meget af det kan jo komme til at give noget på sigt, og om ikke andet så giver de det videre til internet, som jo også er det de lever af.
Det gør facebook jo også, og de har jo heller ikke røde tal på bundlinjen, så de burde også turde noget, uden kun at tænke på indtjening.
Håber det klaret min holdning lidt op,

mvh

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize