Opdatering kolliderede med drift-manøvre: Gav timelangt cloud-nedbrud hos Google
Et timelangt nedbrud i Googles sky tidligere på måneden blev skabt af it-gigantens egne opdateringer.
Det skriver The Register.
Nedbruddet den 11. august betød, at Googles App Engine API’er var utilgængelige, og at fejlraten på visse hostede applikationer nåede op til 50 pct.
I en redegørelse fortæller Google nu, at det var selskabet selv, der gav cloud-systemet en mavepuster.
Den pågældende dag gik Google i gang med en ‘periodisk vedligeholdsprocedure’, der involverer, at applikationer bliver flyttet mellem datacentre - i dette tilfælde datacentre i det centrale USA - for at afbalancere datatrafikken.
Den øvelse betyder, at en del af applikationerne flyttes til et andet datacenter, hvorefter trafikken til det nu aflastede datacenter gradvist drænes, forklarer Google i rapporten om hændelsen.
Den rutineprægede fremgangsmåde havde fungeret fint, hvis det ikke var, fordi Google et andet sted i systemet gik i gang med at opdatere softwaren på trafik-routerne - en opdatering, der fik samtlige routere til at genstarte.
Det betød, at router-kapaciteten midlertidigt var hæmmet, da App Engine begyndte at sende en række request til de applikationer, der var blevet flyttet til et nyt datacenter. Fordi applikationerne var usædvanligt langsomme om at svare, sendte App Engine flere request med det resultat, at routerne blev overlæsset og droppede en række request i farten.
Google oplyser, at man nu har installeret større router-kapacitet for at undgå, at problemet opstår igen. Google nævner imidlertid ikke, at man nu vil undgå at smække opdateringer sammen med driftsøvelser.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.