Katastrofeøvelse i Facebooks datacentre afslørede kaotisk load-balancing
Det er én ting at trække i hovedafbryderen til et almindeligt datacenter for at teste, om al redundans fungerer. Noget andet er at gøre det, når datacentret er et megadatacenter, som dem Facebook benytter sig af.
Facebook laver dog samme øvelse, og det har afsløret et uventet problem, skriver Data Center Knowledge.
Med adskillige datacentre i hver geografiske region, så vil der være kapacitet til at overtage, selvom et helt datacenter eller to skulle blive sat ud af spillet i forbindelse med eksempelvis en orkan.
Men når netværket skal håndtere, at tusindvis af servere ikke længere er tilgængelige, og data skal hentes fra andre datacentre, så stiller det store krav til at håndtere trafikken.
Her viste Facebooks katastrofeøvelser, at netværkstrafikken kort efter nedlukningen af et stort datacenter begyndte at blive kaotisk forstået på den måde, at der var store uforudsigelige udsving i belastningen på de resterende datacentre.
Øvelsen foregik på Facebooks kørende netværk og førte ikke til egentlige driftsforstyrrelser set fra brugernes side, men de store udsving kunne have givet problemer, hvis andre dele af infrastrukturen var ramt.
Facebook har derfor efterfølgende justeret systemet til load-balancing og trafikstyring, så trafikken i efterfølgende øvelser har været jævnt fordelt over de resterende datacentre, sådan som det var tiltænkt.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.