Katastrofeøvelse i Facebooks datacentre afslørede kaotisk load-balancing

Selvom Facebook havde mekanismer på plads til at fordele trafikken, hvis et datacenter gik ned, så var det i første forsøg rent kaos.

Det er én ting at trække i hovedafbryderen til et almindeligt datacenter for at teste, om al redundans fungerer. Noget andet er at gøre det, når datacentret er et megadatacenter, som dem Facebook benytter sig af.

Facebook laver dog samme øvelse, og det har afsløret et uventet problem, skriver Data Center Knowledge.

Med adskillige datacentre i hver geografiske region, så vil der være kapacitet til at overtage, selvom et helt datacenter eller to skulle blive sat ud af spillet i forbindelse med eksempelvis en orkan.

Men når netværket skal håndtere, at tusindvis af servere ikke længere er tilgængelige, og data skal hentes fra andre datacentre, så stiller det store krav til at håndtere trafikken.

Her viste Facebooks katastrofeøvelser, at netværkstrafikken kort efter nedlukningen af et stort datacenter begyndte at blive kaotisk forstået på den måde, at der var store uforudsigelige udsving i belastningen på de resterende datacentre.

Øvelsen foregik på Facebooks kørende netværk og førte ikke til egentlige driftsforstyrrelser set fra brugernes side, men de store udsving kunne have givet problemer, hvis andre dele af infrastrukturen var ramt.

Facebook har derfor efterfølgende justeret systemet til load-balancing og trafikstyring, så trafikken i efterfølgende øvelser har været jævnt fordelt over de resterende datacentre, sådan som det var tiltænkt.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (2)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
#1 Martin Jensen

Jeg skal lige have forklaret hvad nyhedsværdien er i denne artikel-om-artikel, altså - hvad er den spændende vinkling, det overraskende, det som jeg kan få ud af artiklen? :-)

  • 8
  • 1
Log ind eller Opret konto for at kommentere