Én google-søgning bruger 1.000 servere

I Googles datacentre er én googlesøgning gået fra at involvere 12 servere til i dag 1.000 servere. Det giver lavere svartider, fordi hele indekseringen af internettet kan rummes i hukommelsen.

Hvad der foregår inde i Googles sagnomspundne datacentre er omgæret af megen mystik. Men en Google-chef har for nyligt løftet lidt af sløret ved en præsentation på en konference om websøgning.

Jeff Dean, der har stået bag fem generationer af Googles søgeteknologi siden 1999, forklarede, at én enkelt søgeproces i dag involverer 1.000 servere. Det er nødvendigt, fordi hele Googles søgeindex dermed kan rummes i hukommelsen på disse servere og svartiderne så kan bringes ned på 0,2 sekunder, skriver Computerweekly.com.

For ti år siden, da internettet stadig var en baby sammenlignet med i dag, involverede en googlesøgning kun 12 servere, men til gengæld var svartiden et helt sekund.

På trods af det store antal maskiner involveret i en søgning, har Google tidligere meddelt, at den mængde strøm, som bliver brugt af en brugers computer under søgningen, overgår hvad Google skal bruge på at udføre søgningen.

Detaljer om Googles datacenterteknologi betragtes af firmaet som en vigtig forretningshemmelighed, og selv oplysninger om, hvor meget strøm et givent datacenter bruger, er Google meget modvillige til at udlevere. Firmaet har endda fået ændret en amerikansk lov for at kunne undgå at skulle oplyse om firmaets strømforbrug.

Det er dog gennem årene sluppet ud, at datacentrene kører på almindelig hardware, som Google selv samler, og med et specialdesignet styresystem baseret på Linux. For at sikre hurtig udskiftning, hvis en server går ned, er alt sat op med velcro i stedet for skruer.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (8)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Hans-Kristian Bjerregaard

Er det ikke lidt af en skrøne? lyder både besværligt at styre og holde stabilt. Hvis dine servere er på rackskinner (hvilket alle da er idag) så kan det da nærmest ikke blive hurtigere. Det er jo som at hive en ske op af en skuffe.

Tror den historie kommer fra nogle der aldrig har sat deres fødder i et datacenter.

  • 0
  • 0
Jesper Stein Sandal

Nu er/var det indmaden, som blev holdt sammen med velcro. Du kan få lidt af en idé om det her i en artikel fra 2006 i New York Times:

http://tinyurl.com/pgpdq

Googles patent:

http://tinyurl.com/cp3v5g

Om de stadig bygger deres servere helt fra grunden af, er så lidt mere usikkert. Det sidste, jeg har hørt, er, at de køber servere hos stort set alle leverandører. Men af gode grunde er de ikke meget for at fortælle om det i detaljer.

  • 0
  • 0
Torben Mogensen Blogger

Google er på forkant, når det gælder distribuerede beregninger i store klynger. De startede med deres map-reduce bibliotek til C++ men har sidenhen lavet et programmeringssprog specielt til formålet: Sawzall (http://research.google.com/archive/sawzall.html). Den refererede artikel er ganske interessant læsning.

Jeg synes i øvrigt, at V2's overskrift forleder til at tro, at de 1000 maskiner ikke gør andet end at behandle en enkelt forespørgsel. Det er langt fra tilfældet: En af pointerne i Googles model er, at man laver mange beregninger samtidigt, så hver af de 1000 computere vil samtidigt behandle mange tusinde forespørgsler.

  • 0
  • 0
Jørgen Henningsen

Umiddelbart er der ikke noget specielt nyskabende ved googles måde at gøre det her på.
Dedikerede supercomputere, som den beskrevne, han man anvendt i rigtigt mange år til bl.a. signalbehandling o.lign. Det er muligt at de på software siden har nye tiltag.

Det lyder dog ikke som særligt scalerbart/robust system når hele datasættet skal holdes i ram. Men de har jo nok flere parallelle produktionslinjer.

  • 0
  • 0
Torben Mogensen Blogger

[/quote]Det lyder dog ikke som særligt scalerbart/robust system når hele datasættet skal holdes i ram.[/quote]

RAM'en er bare en cache for data, som findes på DISK, så hvis en maskine går ned, genstarter den bare og loader data fra disken. Endvidere er data repliceret, så selv om en maskine er nede i lang tid, er dens data stadig tilgængeligt på andre maskiner.

I Sawzall-artiklen nævner forfatterne, at ved større jobs er det ret almindeligt, at flere maskiner involveret i beregningerne går ned, men de har lavet softwaren, så den er robust over for den slags udfald.

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize