Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Se kommentarer (1)
Emner Servere, Webapplikationer, Søgemaskiner

Her løfter Google sløret for mastodontisk Linux-infrastruktur

Open Source Days: Google gav på Open Source Days 2010 et indblik i virksomhedens kritiske infrastruktur, der dagligt jonglerer enorme mængder data hen over tusindvis af computere i distribuerede beregninger.

Af Mikkel Meister Mandag, 8. marts 2010 - 6:59

Google løftede lørdag under Open Source Days 2010 en smule af sløret for den infrastruktur, virksomheden bruger til at håndtere sine enorme mængder af søgedata.

Udfordringen for Google har været at skabe én af verdens største computing-infrastrukturer og samtidig gøre det nemmere for sine udviklere at skrive parallel kode, end ikke at gøre det.

Det forklarede site reliability engineer hos Google, Pim van Pelt, under et oplæg på Open Source Days 2010.

Pim van Pelt står i spidsen for et hold hos Google, der vedligeholder Googles produktionsinfrastruktur. Den omfatter systemer, der i høj grad skal være tilgængelige og distribuerede, både internt i Google og for systemer, der har berøring med slutbrugeren.

»Jeg ved ikke, om Google har verdens største computing-infrastruktur, men min vurdering vil være, at vi ligger i top-5, og nok også i den gode ende,« sagde Pim van Pelt.

Han indledte foredraget med at slå fast, at han ikke ville svare på konkrete spørgsmål fra publikum om, for eksempel hvor mange servere virksomheden har kørende, eller hvor mange queries ? forespørgsler i søgemaskinen ? Google modtager. Han var heller ikke autoriseret til at udtale sig overfor Version2 efter foredraget.

Men han nåede alligevel at give et indblik i, hvordan Google har strikket sin egen infrastruktur sammen mellem den hardware og de operativsystemer, den kører på, og de services, Google tilbyder.

Klemt inde mellem billige pc'er og Google-tjenester

Imellem på den ene side Googles computing-platform, der består af horder af billige pc'er med Linux, og virksomhedens tjenester og applikationer som for eksempel Gmail, ligger Googles distribuerede system-infrastruktur.

De vigtigste dele af infrastrukturen er følgende:

Googles distribuerede filsystem GFS, den distribuerede lockserver Chubby, grid computingsystemet Workqueue, frameworket Mapreduce, der bruges til parallelle beregninger, og det domænespecifikke sprog Sawzall, som Google bruger til at håndtere de enorme mængder data.

GFS er Googles eget, proprietære filsystem til internt brug. Det er designet til at kunne skalere og yde stabilt og pålideligt hen over filsystemer i petabyte-størrelsen, fordelt udover tusindvis af maskiner.

Filsystemet inddeler data i klumper af 64 megabyte, og hver klump lægges i en 'master', som replikeres typisk tre gange. Hvis data er kritiske, kan det vælges at replikere dem ti gange, fortalte Pim van Pelt.

»Google tror ikke rigtigt på RAID (redundante diske, red.),« konstaterede Pim van Pelt.

Google har koblet storagesystemet Bigtable oven på GFS for at sikre sig mod spildplads, hvis man ønsker kun at gemme for eksempel 20 megabyte ud af de 64, der er afsat i hver dataklump.

Med frameworket Mapreduce kan Google dele inputdata op i mindre bidder og sætte programmer til at arbejde distribueret på data fordelt ud over mange maskiner.

Pim van Pelt fortalte, hvordan Mapreduce kunne bruges til at søge distribueret med Unix-kommandoen grep efter en bestemt IP-adresse i en kopi af indholdet på www og lægge resultatet over i en tekstfil.

grep '130.225.226.91' the_web > matches.txt

Mapreduce fungerer basalt set i to trin: Et map-trin, hvor input deles op i mindre dele og fordeles ud på et antal maskiner, som beregner svaret på delproblemet og sender det tilbage. Alle svar kombineres til ét samlet i reduce-trinnet, hvilket resulterer i det endelige output fra beregningen.

Det fortolkede sprog Sawzall ligger ovenpå Mapreduce og bruges til at håndtere de store mængder data, Google skal behandle i sine tjenester.

Pim van Pelt fortalte blandt andet under foredraget, hvordan han med tre linjer Sawzall-kode kunne tælle antallet af besøgende gennem mere end halvanden milliard loglinjer - i løbet tre sekunder, hævdede han, uden dog at demonstrere det i praksis.

Mere information om de enkelte værktøjer og teknologier i Googles infrastruktur kan findes under fanebladet Eksterne links.

Send Tweet
Udskriv

IT-job & karriere

  • Se alle it-job
  • Importer din kompetenceprofil fra LinkedIn
.Net Web Developer
Udgivet 8. maj 15.44
EPIserver Web Developer
Udgivet 14. maj 9.33
Salesforce.com - udviklere til Vallensbæk
Udgivet 30. nov 2011 10.44
SD Senior-konsulent
Udgivet 24. apr 10.40

Kommentarer (1)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Flemming Frandsen 8. mar. 2010 - 15.16
 
Nej, han gjore ej!

Det var et gen-opkog af gamle papers.

Pim var underholdende, men der var intet nyt i hans foredrag.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Meego-afløseren Tizen klar til at tage kampen op med Android

Udgivet 23. maj 16.01Opdateret 23. maj 16.01

Massiv logning af danskernes internetbrug - men politiet bruger kun IP-adressen

Udgivet 23. maj 15.22Opdateret 23. maj 15.22

198 IBM-medarbejdere fritstillet med øjeblikkelig virkning

Udgivet 23. maj 14.28Opdateret 23. maj 15.10

Mystisk Project X afsløret: Rent flashlager giver fænomenal IOPS-ydelse

Udgivet 23. maj 14.19Opdateret 23. maj 14.19

Region sparer licens-millioner på at lukke ”Grønt System”

Udgivet 23. maj 13.22Opdateret 23. maj 13.22

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Whitepapers

Kick-start your master data management initiative

Affecto Denmark

Affecto Data Quality Assessment: Er din indsigt og beslutning baseret på validt data?

Affecto Denmark

Framework til datamigrering i SAP miljøer - spar op til 50% på dine Data Migration udgifter

Affecto Denmark

Få et Data Warehouse (DW) review hos Affecto

Affecto Denmark

Ressourcehåndtering

Projectplace
  • Flere whitepapers

Branchenyheder

Microsoft SQL Server 2012

Microsoft

HP lancerer verdens mest automatiserede servere

HP

HP sikrer virksomheder bedre beslutningsgrundlag via ustrukturerede data

HP

Konica Minoltas stand på drupa 2012 slog besøgsrekord

Konica Minolta Business Solutions Denmark

Komplex it er blevet Brocade Premier Partner

Komplex IT

Seneste debat

  1. GOTO - Embracing variability

    7 comments.
    Last update 15 minutter 53 sekunder
    Skrevet af Allan Ebdrup
  2. Massiv logning af danskernes internetbrug - men politiet bruger kun IP-adressen

    2 comments.
    Last update 1 time 3 minutter
    Skrevet af Kim Henriksen
  3. HTML5 – det nye sort?

    9 comments.
    Last update 1 time 20 minutter
    Skrevet af Benni Bennetsen
  4. Ny malware går efter alle browsere - også på Mac og Linux

    7 comments.
    Last update 1 time 25 minutter
    Skrevet af Simon Friis Vindum
  5. Finansminister afliver teori om NemID som spionsoftware

    25 comments.
    Last update 1 time 30 minutter
    Skrevet af Ole Tange
  6. Meego-afløseren Tizen klar til at tage kampen op med Android

    2 comments.
    Last update 2 timer 59 minutter
    Skrevet af Jens Schumacher
  7. Sådan formaterer du tekst i debatten på Version2

    30 comments.
    Last update 3 timer 16 minutter
    Skrevet af Jesper Lund Stocholm
  8. Minister giver e-læring i køreskolerne det røde kort

    2 comments.
    Last update 3 timer 39 minutter
    Skrevet af Jens Madsen

Mere debat »

It-virksomheder

BEC
|
Incube
|
Devoteam
|
Sharkcell
|
Cbrain
|
Raxco Scandinavia
|
Interface
|
CFN People A/S
|
Presswire
|
Stay Secure Denmark
|
Ciklum
|
Timelog
 

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Android
  • Bruttolønsordning
  • Business Intelligence
  • Cloud computing
  • Download Windows 8
  • HTML5
  • Harddisk-priser
  • IE9
  • Intranet
  • It-sikkerhed
  • Kindle Fire
  • Multimedieskat
  • NemID
  • OS X Mountain Lion
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu 11.10
  • Virtualisering
  • Windows 8
  • Windows Phone 7
  • iOS 5
  • iPhone 4S

Tjenester

  • Android-app
  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Skelbækgade 4 1717 København V
  • Tlf. work 33265300