Flere SSD-modeller fejler efter nøjagtig 32.768 timer

Firmwareopdatering løser problemet, men skal installeres i tide.
Denne Samsung-producerede SSD fra HP Enterprise, med produktnummeret VO1920JFDGV, er blandt de berørte 20 modeller. Illustration: HPE

Lagringsenheder, som fejler efter nøjagtig 32.768 timers driftstid (2^15 timer), det lyder lidt specielt, men det er netop det, Hewlett Packard Enterprise (HPE) nu advarer kunderne om vil ske med en række SSD’er, hvis kunderne ikke opdaterer enhedernes firmware.

Det er en underleverandør af HPE, som har produceret SSD’erne, og det er denne leverandør, som har advaret HPE om problemet. I hvert fald én af SSD-modellerne, den som ses øverst i artiklen, er produceret af Samsung.

32.768 timer er det samme som 3 år, 270 dage og 8 timer.

Avancerede produkter

De berørte enheder tilhører en serie med SAS SSD’er, som er brugt i en række server- og lagringsprodukter fra HPE. Dette inkluderer produkter som ProLiant, Synergy, Apollo, JBOD D3xxx, JBOD D6xxx JBOD D8xxx, MSA, StoreVirtual 4335 og StoreVirtual 3200.

I alt drejer det sig om 20 forskellige SSD-modeller. Detaljer om dem kan læses her.

Problemerne kan løses ved at opdatere firmwaren i de berørte enheder til version HPD8 eller nyere. Denne opdatering er nu tilgængelig for knap halvdelen af de berørte enheder. En opdatering til de resterende bliver gjort tilgængelig på et tidspunkt mellem 9. og 15. december i år.

Der er efter sigende ikke nogen fare for, at de berørte enheder vil fejle, før firmwareopdateringen bliver gjort tilgængelig.

Datatab

Hvis firmwaren ikke installeres i tide, vil SSD’en fejle. Afhængig af opsætning vil det i mange tilfælde være umuligt at genoprette dataene på enheden. I stedet skal de hentes fra en sikkerhedskopi eller spejling.

HPE oplyser på denne side om et værktøj, som kan bruges til at se, hvor mange timer den enkelte SSD har været i drift.

Svensk lagringscrash

Harddiskene i flere tusinde pc’er på svenske hospitaler har fejlet de seneste månederne, konkret Elitedesk-pc’er fra HP. Det er sandsynligt, at disse maskiner var udstyret med SSD’er og ikke harddiske, det har i hvert fald ét af hospitalerne oplyst.

Dermed kan det være et tilsvarende problem som det tidligere nævnte, som har ramt de svenske hospitaler og andre brugere af de aktuelle computere. Hos politiet i Sverige er mindst 2.500 lagringsenheder efter sigende crashet det seneste år.

Artiklen er fra digi.no.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (17)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Jens Carsten Hansen

Det lyder mærkeligt, at alle data skulle være umulige at genoprette efter "crash" af denne type.
Måske bliver krypteringsnøglen overskrevet, så data ikke længere kan dekrypteres?
En anden forklaring kunne også være, at mapping-tabellen overskrives (og så kræver det en efterretningstjeneste at genskabe indholdet).

  • 0
  • 0
Tobias Tobiasen

“ Denne type fejl kan medføre at samtlige diske i dit SAN eller NAS fejler nøjagtig samtidig.”
Nu er det efterhånden et stykke tid siden jeg sidst har rodet med SAN. Men sidst jeg var involveret i et sådan projekt valgte vi faktisk at have forskellige diske i netop for at undgå at alt var for ens.

  • 3
  • 0
Joe Sørensen

valgte vi faktisk at have forskellige diske i netop for at undgå at alt var for ens


Der er mange controllere, der forlanger at diskene har samme type. Og mange har den praksis at diskene skal bare være af samme type i et RAID.

diske med forskellige produktionsdato, anses mig bekendt som best pratice


Det er jeg helt enig i.
Desværre hjælper det ikke i dette tilfalde. De har alligevel været online i ca. lige lang tid. Og så dør næste diske før den første er genbygget.

Jeg ser også et andet stort problem. Hvis et stort cluster af diske pludselig dør og skal genskabet fra backup. Har man så diske at genskabe dem til? Eller er de pludselig i restordre? Det samme er måske sket for andre virksomheder, så pludselig er de har diske i høj kurs.

Jeg har engang prøvet at skulle udvide et cluster og derfor skulle vi bestille nogle store diske. Vi fandt nogle butikker, der havde den rigtige type. Ingen af dem havde nok af dem på laget i forhold til det antal vi skulle bruge. Det er selvfølgelig fint, fordi det øger chancen for at de ikke er produceret samme dag. Så vi valgte at dele bestillingen over 3 forskellige butikker.

Desværre, da vi havde bestilt hos en, så havde alle de andre udsolgt. Diskene lå nemlig hos grosisten. Og de havde den samme grosist. Og vi måtte vente i flere uger.

  • 5
  • 0
Torben Mogensen Blogger

at man havde lært af Y2K-problemet, at man skal bruge rigeligt med bits/cifre til tidsangivelser. At bruge (endda signed!) 16-bit heltal til at tælle timer er bare dumt.

Gad vide om opdateringen blot ændrer tallet til 16-bit unsigned, så man kan komme op på 65565 timer, før disken fejler. På det tidspunkt har diskene været brugt i over 7 år, og så mener de måske, at de nok alligevel er skiftet ud.

  • 4
  • 0
Victoria Hansen

Nu er det efterhånden et stykke tid siden jeg sidst har rodet med SAN. Men sidst jeg var involveret i et sådan projekt valgte vi faktisk at have forskellige diske i netop for at undgå at alt var for ens.

Langt de fleste (mig bekendt) køber nye SAN færdig-konfigureret, så det er ofte ikke noget man har let ved at kontrollere, man køber ikke individuelle diske, i hvert fald ikke i større deployments.

Og for at gøre det værre, så putter de fleste vendors deres eget logo på diskene, og putter flere "tilsvarende" diske under samme part number, så der er reelt ingen kontrol med hvilken producent diskene kommer fra.

  • 0
  • 0
Poul-Henning Kamp Blogger

Ja, det gør den.

Moderne diske, både flash & rust, ved en masse om de kvantemekaniske mekanismer der får de lagrede bits til at udviskes og en af måderne de kommer det i forkøbet er at vide præcist hvor lang tid, i "wall-clock-time" det er siden data blev skrevet.

Hvis du har dine data kær, skal du ikke give dig til at lære om hvor få atomer der er per bit nu om dage.

  • 2
  • 0
Log ind eller Opret konto for at kommentere