Efter 6 år i Googles datacentre: SSD'er er mere holdbare end deres rygte

De billige typer SSD'er er ikke mere tilbøjelige til at gå i stykker end de dyre, viser erfaringerne fra Googles datacentre.

Holdbarheden af SSD'er har hidtil været vurderet primært på baggrund af forsøg, hvor hukommelseschippene udsættes for eksempelvis et stort antal skrivninger for at simulere, hvordan SSD'erne bliver slidt over tid.

Men i praksis viser det sig, at SSD'erne er mere holdbare end forventet ud fra forsøgene.

Det er i hvert fald erfaringerne efter mere end seks år med SSD'er i Googles datacentre. Google har i samarbejde med University of Toronto opgjort de forskellige typer fejl, Google har registreret på de forskellige typer SSD'er, Google har anvendt.

Resultaterne er offentliggjort i et paper, der blev præsenteret i forbindelse med storagekonferencen Usenix.

En af hovedkonklusionerne er, at Google overordnet set ikke har oplevet den forskel mellem de to typer flash-hukommelseschips MLC og SLC, som var forventet ud fra laboratorieforsøg.

MLC er typisk billigere opgjort i forhold til kapaciteten, da hver celle kan lagre flere bit. Derfor anbefaler storageproducenterne, at man anvender enten SLC eller en variant af MLC kaldet eMLC til datacenterbrug, hvis man gerne vil undgå fejl på drevene.

Læs også: SSD'ernes holdbarhed falder: Drev fejler efter få måneder

Problemet med flash-hukommelse er, at cellerne efter et antal overskrivninger risikerer at blive nedbrudt og dermed være permanent defekte. SLC skulle kunne holde til op til en størrelsesorden flere skrivninger end MLC.

Ser man på antallet af fejl i forhold til antal skrivninger, så var vurderingen ud fra laboratorieforsøg, at man ville se en eksponentiel vækst. I praksis viste det sig at være en lineær funktion.

Det betyder, at for mange typer MLC er risikoen for fejl ikke meget større efter selv et stort antal overskrivninger i forhold til SLC.

Samtidig viste undersøgelsen, at levetiden for chippene i forhold til overskrivninger set i forhold til, hvornår sandsynligheden for fejl begyndte at vokse kraftigt, i flere tilfælde var tre gange højere end producentens vurdering.

Google fandt større varians inden for forskellige typer af henholdsvis SLC og MLC, end de gjorde mellem de to typer hukommelse.

For de enkelte drev viste det sig, at mindst 30 procent af drevene udviklede defekte blokke i løbet af deres levetid. Antallet af defekte blokke var dog typisk lavt på cirka to pr. drev.

Til gengæld var et højere antal defekte blokke en indikator for, at der ville være mange flere. Hvis der var mere en to dårlige blokke, så steg sandsynligheden kraftigt for, at der ville være flere hundrede defekte blokke. Det skyldtes i de fleste tilfælde defekte chips.

Generelt blev Google nødt til at tage mellem seks og ni procent af SSD'erne ud af drift til reparation i løbet af en fireårig periode. To typer SLC-baserede drev var dog betydeligt mere tilbøjelige til at skulle repareres.

Målt på gennemsnitstiden mellem reparationer, så viste eMLC-B-baserede SSD'er sig at være de mest stabile, om end også almindelige MLC-A og SLC-A drev havde høj stabilitet med mellem 11.400 og 14.500 dage mellem et drev skulle repareres.

Læs også: Dyr SSD kan give servere i sneglefart

Sammenlignet med harddiske viste SSD'er sig at være mere holdbare. Tidligere undersøgelser har opgjort, at mellem to og ni procent af harddiske skulle repareres i løbet af et år. Det er altså væsentligt højere end mellem fire og 10 procent målt over fire år for SSD'er.

Til gengæld så klarer harddiskene sig bedre i forhold til den procentvise andel af defekte blokke, ligesom SSD'erne var mere tilbøjelige til at udvikle fejl, der ikke kunne korrigeres for.

En opgørelse af kritiske bitfejl, unrecorrectable bit error rate (UBER), bliver normalt brugt som målestok for fejlraten på SSD'er, men det viste sig at være ubrugeligt i praksis.

I teorien skulle der være en sammenhæng mellem disse fejl og antallet af læsninger, men det var der ikke i praksis. Hvis man benytter UBER som målestok, vil en fejl på et drev med forholdsvis få læsninger kunne fremstå værre, end det viste sig at være i praksis.

Følg forløbet

Kommentarer (10)

Brian Hansen

Har haft et antal SSD'er i vores SAN i 2år nu.
Billige OCZ Vertex 4, og de er både hurtigere, mere holdbare og meget, MEGET billigere end Enterprise class SAS diske på 15k rpm.
En skam vi skal over til Dell SAN, de understøtter desværre kun Dell diske, der er HP meget mere kompatibel :(

Johnnie Hougaard Nielsen

Nogen, der kan forklare hvordan Google på bare 6 år kan konstatere, at der er mellem 32 og 39 år mellem et drev skulle repareres?

"Et drev" betyder ikke et bestemt drev, men et eller andet ud af et stort antal. Hvis det fx var 1000 drev, ville det betyde at der 2-3 gange om måneden skete noget med et af dem, i snit.

Målestokken er så drev-dage.

Erling Sjørlund

det er med andre ord fuldstændig meningsløse tal, når man ikke kender antallet af diske. De 4 - 10% af diskene fejlede i løbet af fire år. Det er da til at få udbytte af at læse.
En anden uklar ting er, at diskene skulle repareres. Af hvem? Disken selv burde kunne reparere sig automatisk i form af at udelukke dårlige blokke, at bruge et rep. program på en disk, der har fejlet, er der vel næppe nogen, der kunne finde på i dag, men måske menes der udskiftes/erstattes i stedet for repareres.
Jeg synes, at det er fint nok at få en sammenligning mellem SDD og harddiske, men tallene i artiklen er altså lidt rodede i mine øjne.

Johnnie Hougaard Nielsen

det er med andre ord fuldstændig meningsløse tal, når man ikke kender antallet af diske.

Tværtimod er en rate et nyttigt tal, når artiklen i sagens natur ikke gengiver alle detaljer fra kilden. Antagelsen er jo så at folk som har interesse i detaljer følger linket.

Her kan du fx finde en sætning som "A drive is being swapped and enters repairs if it develops issues that require manual intervention by a technician". I sagens natur er det langt fra altid at teknikeren kan returnere drevet til drift.

Jens C. Hansen

Det er jo meget godt hvad angår serverbrug, men det siger stort set intet om, hvordan de holder til privat brug.
Efter hvad jeg har oplevet og har kunnet læse mig til, var 'børnesygdommene' i SSD'er især relateret til strømspare-tilstande, hvor de ikke kunne håndtere de tilstande/skift korrekt.
Det ser man jo intet til i servere.
Mange daglige nedlukninger / korte el-udfald kunne jeg også godt forestille mig var en kilde til fejl, hvis de sker på et uheldigt tidspunkt (under data-optimering/garbage-oprydning).

Log ind eller opret en konto for at skrive kommentarer

JobfinderJob i it-branchen