En enkelt sløv disk eller SSD kan gøre hele dit storagesystem langsomt

Det er nærmest umuligt at leve op til 99,9 procent af tiden med fuld kraft på alle drev i et RAID. Blot en enkelt langsom disk kan trække hele systemet ned.

Fuld tryk på hele storagesystemet 99,9 procent af tiden er nærmest umuligt i praksis, for en enkelt sløv disk eller SSD kan trække ydelsen ned, og det sker hele tiden i datacentre. Det konkluderer forskere fra University of Chicago og storageleverandøren NetApp i en undersøgelse, der blev offentliggjort på storagekonferencen Usenix.

Undersøgelsen bygger på målinger fra 450.000 harddiske og 4.000 SSD'er over en periode på knap tre måneder. Det primære resultat er, at 0,2 procent af tiden vil en harddisk være dobbelt så langsom som normalt. For en SSD er det 0,6 procent af tiden.

I et RAID-setup vil det betyde, at der er problemer med ydelsen for en enhed mellem 1,5 og 2,2 procent af tiden.

Forklaringen på, hvorfor en enkelt enhed bliver langsom, er lidt sværere at fastslå ud fra undersøgelsen, men i de fleste tilfælde skyldes det problemer med enheden. For harddiske er der en sammenhæng med diskens alder, hvor mekanisk slid kan være en forklaring. For SSD'er er der både forskel på ydelsen fra MLC-baserede drev og SLC-baserede, hvor de dyrere SLC-baserede yder lidt bedre.

Læs også: Efter 6 år i Googles datacentre: SSD'er er mere holdbare end deres rygte

Der er dog også en tydelig forskel på ydelsen på SSD'er fra forskellige leverandører, så controller og firmware kan spille en rolle.

Konsekvenserne af et langsomt drev i systemet kan vare ved i længere tid. For 40 procent af diskene og 35 procent af SSD'erne varede problemerne i mere end én time. Og for henholdsvis 13 og 3 procent varede det otte timer eller længere.

Selv for de kortvarige problemer, så er det også de samme enheder, der giver gentagne problemer i løbet af en dag. Hvis man identificerer en bestemt langsom enhed, så er der altså god sandsynlighed for, at den samme enhed vil give nye problemer senere. Der er således en lille gruppe på 5 til 6 procent af drevene, som oplever et meget større antal problemer end resten af drevene.

Især i et RAID med SSD'er kan en enkelt langsom enhed have stor indflydelse på ydelsen. Hvis et enkelt drev begynder at være langsomt, så øges risikoen for, at hele systemet bliver langsommere med 23 procent.

Et konkret råd fra undersøgelsen er, at hvis man prøver at løse problemet ved at pille et problematisk drev ud og sætte det tilbage, så skal man ikke forvente, at det løser problemet på længere sigt.

Det er muligt at komme uden om visse af problemerne ved at aflaste de drev, der har problemer. Det kan gøres gennem storagesystemets software. Her viste det sig, at hvis man udelukkende fokuserer på at kompensere for langsomme drev, når man først kan måle problemerne, så kan man alligevel have problemer, hvis ydelsesproblemerne er meget kortvarige.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk

Følg forløbet

Kommentarer (2)

Ole Kaas

Et konkret råd fra undersøgelsen er, at hvis man prøver at løse problemet ved at pille et problematisk drev ud og sætte det tilbage, så skal man ikke forvente, at det løser problemet på længere sigt.

erm... det må være et "råd" til de point'n'click certificerede, der har lært at de fleste problemer - også på langt sigt - løses med en genstart...

På den korte bane er man vel garanteret endnu lavere ydelse grundet rebuild af raid. Uanset om drevet kørte "nogenlunde" eller var detached helt fra raid.

Log ind eller opret en konto for at skrive kommentarer