Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Emner
  • Opret bruger
  • Log ind
Se kommentarer (1)
Emner Servere, Webapplikationer, Søgemaskiner

Her løfter Google sløret for mastodontisk Linux-infrastruktur

Open Source Days: Google gav på Open Source Days 2010 et indblik i virksomhedens kritiske infrastruktur, der dagligt jonglerer enorme mængder data hen over tusindvis af computere i distribuerede beregninger.

Af Mikkel Meister Mandag, 8. marts 2010 - 6:59

Google løftede lørdag under Open Source Days 2010 en smule af sløret for den infrastruktur, virksomheden bruger til at håndtere sine enorme mængder af søgedata.

Udfordringen for Google har været at skabe én af verdens største computing-infrastrukturer og samtidig gøre det nemmere for sine udviklere at skrive parallel kode, end ikke at gøre det.

Det forklarede site reliability engineer hos Google, Pim van Pelt, under et oplæg på Open Source Days 2010.

Pim van Pelt står i spidsen for et hold hos Google, der vedligeholder Googles produktionsinfrastruktur. Den omfatter systemer, der i høj grad skal være tilgængelige og distribuerede, både internt i Google og for systemer, der har berøring med slutbrugeren.

»Jeg ved ikke, om Google har verdens største computing-infrastruktur, men min vurdering vil være, at vi ligger i top-5, og nok også i den gode ende,« sagde Pim van Pelt.

Han indledte foredraget med at slå fast, at han ikke ville svare på konkrete spørgsmål fra publikum om, for eksempel hvor mange servere virksomheden har kørende, eller hvor mange queries ? forespørgsler i søgemaskinen ? Google modtager. Han var heller ikke autoriseret til at udtale sig overfor Version2 efter foredraget.

Men han nåede alligevel at give et indblik i, hvordan Google har strikket sin egen infrastruktur sammen mellem den hardware og de operativsystemer, den kører på, og de services, Google tilbyder.

Klemt inde mellem billige pc'er og Google-tjenester

Imellem på den ene side Googles computing-platform, der består af horder af billige pc'er med Linux, og virksomhedens tjenester og applikationer som for eksempel Gmail, ligger Googles distribuerede system-infrastruktur.

De vigtigste dele af infrastrukturen er følgende:

Googles distribuerede filsystem GFS, den distribuerede lockserver Chubby, grid computingsystemet Workqueue, frameworket Mapreduce, der bruges til parallelle beregninger, og det domænespecifikke sprog Sawzall, som Google bruger til at håndtere de enorme mængder data.

GFS er Googles eget, proprietære filsystem til internt brug. Det er designet til at kunne skalere og yde stabilt og pålideligt hen over filsystemer i petabyte-størrelsen, fordelt udover tusindvis af maskiner.

Filsystemet inddeler data i klumper af 64 megabyte, og hver klump lægges i en 'master', som replikeres typisk tre gange. Hvis data er kritiske, kan det vælges at replikere dem ti gange, fortalte Pim van Pelt.

»Google tror ikke rigtigt på RAID (redundante diske, red.),« konstaterede Pim van Pelt.

Google har koblet storagesystemet Bigtable oven på GFS for at sikre sig mod spildplads, hvis man ønsker kun at gemme for eksempel 20 megabyte ud af de 64, der er afsat i hver dataklump.

Med frameworket Mapreduce kan Google dele inputdata op i mindre bidder og sætte programmer til at arbejde distribueret på data fordelt ud over mange maskiner.

Pim van Pelt fortalte, hvordan Mapreduce kunne bruges til at søge distribueret med Unix-kommandoen grep efter en bestemt IP-adresse i en kopi af indholdet på www og lægge resultatet over i en tekstfil.

grep '130.225.226.91' the_web > matches.txt

Mapreduce fungerer basalt set i to trin: Et map-trin, hvor input deles op i mindre dele og fordeles ud på et antal maskiner, som beregner svaret på delproblemet og sender det tilbage. Alle svar kombineres til ét samlet i reduce-trinnet, hvilket resulterer i det endelige output fra beregningen.

Det fortolkede sprog Sawzall ligger ovenpå Mapreduce og bruges til at håndtere de store mængder data, Google skal behandle i sine tjenester.

Pim van Pelt fortalte blandt andet under foredraget, hvordan han med tre linjer Sawzall-kode kunne tælle antallet af besøgende gennem mere end halvanden milliard loglinjer - i løbet tre sekunder, hævdede han, uden dog at demonstrere det i praksis.

Mere information om de enkelte værktøjer og teknologier i Googles infrastruktur kan findes under fanebladet Eksterne links.

Send Tweet
Udskriv

IT-job & karriere

  • Se alle it-job
  • Importer din kompetenceprofil fra LinkedIn
Java J2EE udvikler ( J2EE )
Udgivet 23. nov 2011 13.43
Salesforce.com - udviklere til Vallensbæk
Udgivet 30. nov 2011 10.44
SDET II (783628)
Udgivet 1. feb 9.46
Udvikler med projektlederkompetencer søges til fast stilling
Udgivet 23. jan 12.37

Kommentarer (1)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Flemming Frandsen 8. mar. 2010 - 15.16
 
Nej, han gjore ej!

Det var et gen-opkog af gamle papers.

Pim var underholdende, men der var intet nyt i hans foredrag.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Teknologirådet reddet: Fortsætter i ændret konstruktion

Udgivet 10. feb 11.32Opdateret 10. feb 11.32

Version2 tester: Her kan du fare vild i Windows 8

Udgivet 10. feb 10.44Opdateret 10. feb 11.04

Rygte: Google snart klar med Dropbox-konkurrent

Udgivet 10. feb 10.19Opdateret 10. feb 10.19

Ny blog stiller skarpt på juraen i it-kontrakter

Udgivet 10. feb 10.00Opdateret 10. feb 10.15

Windows 8 Consumer Preview klar til download 29. februar

Udgivet 10. feb 9.49Opdateret 10. feb 10.24
Flere it-nyheder »
Få it-nyheder og blogs hver dag med Version2's nyhedsbrev.

Seneste debat

  1. Enhedslisten: Nødvendigt med ny it-strategi, hvis skandaler skal undgås

    11 comments.
    Last update 5 minutter 12 sekunder
    Skrevet af Martin Ipsen Pedersen
  2. Er it-skandalerne kontrakternes skyld?

    3 comments.
    Last update 11 minutter
    Skrevet af Johnnie Hougaard Nielsen
  3. ACTA er i orden!

    52 comments.
    Last update 12 minutter 42 sekunder
    Skrevet af Mads Randstoft
  4. Stop SOPA, PIPA, ACTA, TPP og alle dem der kommer efter

    54 comments.
    Last update 15 minutter 1 sek.
    Skrevet af Jarle Knudsen
  5. Konklusion af Polsag-review fra 2009: Elendig kode hånd i hånd med elendig kontrakt

    13 comments.
    Last update 15 minutter 8 sekunder
    Skrevet af Jimmy Frydkær Dürr
  6. Microsoft frigiver Android-version af OneNote

    7 comments.
    Last update 58 minutter 26 sekunder
    Skrevet af Thomas Bundgaard
  7. Derfor bliver dårlige it-projekter ikke stoppet i tide

    3 comments.
    Last update 1 time 11 minutter
    Skrevet af Kasper Jørgensen
  8. 4 gode sikkerhedsråd: Sådan gør du firma-pc'en vinterferieklar

    5 comments.
    Last update 1 time 24 minutter
    Skrevet af Thomas Vestergaard
Mere debat »

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Android
  • Bruttolønsordning
  • Business Intelligence
  • Cloud computing
  • Digitaliseringsstyrelsen
  • HTML5
  • Harddisk-priser
  • IE9
  • Intranet
  • It-sikkerhed
  • Kindle Fire
  • Multimedieskat
  • NemID
  • OS X Lion
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu 11.10
  • Virtualisering
  • Windows 8
  • Windows Phone 7
  • iOS 5
  • iPhone 4S

Tjenester

  • Android-app
  • iPhone-app
  • RSS-feeds
Følg @version2dk
Få it-nyheder og blogs hver dag med Version2's nyhedsbrev.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Skelbækgade 4 1717 København V
  • Tlf. work 33265300