Store diske river tæppet væk under Raid 5

80-90 procent kører med et Raid 5-setup i deres storageløsning, som umiddelbart virker sikkert. Men stigende datakapacitet gennemhuller sikkerheden. Det tager nemlig en krig at gendanne efter datatab.

Mens den ene terabyte diskplads efter den anden bliver fyldt i firmaets servere, falder sikkerheden for at bevare dataene, selvom det bliver kørt med Raid 5 ? et storage-system med en ekstra disk, der sørger for at holde systemet kørende, når der sker diskfejl.

Hvis en disk går ned i et Raid 5-system, vil de tabte data blive gendannet ud fra information på de andre diske. Men større diske betyder, at der går væsentligt længere tid før, data bliver genskabt, og imens er redundansen væk.

»Hvor det før tog nogle timer, kan det i dag tage et helt døgn eller mere. Og opstår der så en fejl et sted på de andre diske, inden den første disk er bygget op igen, har man mistet det hele,« siger Jens Melhede, der er systemingeniør hos NetApp, som udvikler storage-løsninger.

Et udbredt problem
Det kan lyde som en teoretisk mulighed, men ifølge Jens Melhede er problemet udbredt.

»Omkring en tredjedel af vores kunder har oplevet, at der er gået en disk, og at der går noget galt i genopbygningen. Og sandsynligheden for, at det sker, stiger med større diske,« siger han.

Et alternativ er Raid 6, hvor der er ekstra redundans, så to diske kan stige af, uden at data forsvinder. Men det giver nye problemer: Hastigheden falder, så Raid 6 bruges mest til data, der ikke skal hentes så tit, mens det er for langsomt til at køre databaser fra.

I dag kører næsten alle derfor med Raid 5 ? 80-90 procent er Jens Melhedes bud. Men kun få er opmærksomme på, at Raid 5 ikke i sig selv er en garanti for fejlfri drift, siger han.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (18)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Brian Simonsen

Jeg kører aldrig RAID5 igen! Det er sgu nogle dumme kroner at spare. Jeg havde en disk der gik i en server der kørte vmware for 4 virtuelle servere. Da jeg skiftede den bukkede en tredje disk under ca halvvjs gennem rebuild... SUK

heldigvis var backuppen iorden.

Med RAID 10 kan man trods alt være heldig at overleve et dobbelt disktab, desuden performer det meget bedre.

Thomas Ammitzbøll-Bach

De fleste, der sætter RAID5 op, bruger ens diske ofte med (næsten) fortløbende serienumre. Selvom der er et stort stokastisk element, så er det ikke ualmindeligt, at se følgende:

Alle diske er ved at være slidt ned. Den første disk står af og RAID-controlleren begynder at replikere. Men fordi diskene nu både skal lave mere for at servicere den daglige brug og samtidig skal deltage i replikeringsprocessen, så betyder den øgede belastning, at den næste disk fejler før replikeringen er færdig.

Hvis man vil undgå dette scenario, så skal diskene løbende skiftes inden deres middellevetid er nået.

Thomas

Jarnis Bertelsen

Hotspare har ikke i sig selv noget med sikringen mod nedetid at gøre.

Hvis en disk uden RAID står af, er data utilgængelige indtil du har skiftet disken, restoreret backupen og sat systemet online igen.

Hvis én disk står af i et RAID 5 system kører systemet videre (med lidt lavere performance). Indtil den defekte disk er erstattet og genopbygget, kører systemet uden redundans, og hvis endnu en disk står af, er du i samme situation som du havde været uden RAID. Om der er hotspare til rådighed betyder kun, at en genopbygning af den døde disk begynder med det samme i stedet for at vente på at admin skifter disken.

Jeg er enig i at RAID5 giver en dårligere beskyttelse, hvis det tager lang tid at genopbugge en disk, men at reducere det til værende ubrugeligt eller ligegyldigt er langt ude. Selvfølgelig skal det kombineres med et backup system, alt andet ville være tåbeligt. Dette kan ikke komme bag på nogen kompetent system administrator. Men hvis RAID kan spare dig for en halv dags nedetid på en vigtig server bare én gang, har det ofte betalt sig selv.

Anonym

Jeg er enig i at RAID5 giver en dårligere beskyttelse, hvis det tager lang tid at genopbugge en disk, men at reducere det til værende ubrugeligt eller ligegyldigt er langt ude...

Det er ikke langt ude !! - Alt er bedre end RAID 5. RAID 4, 3, 1+0, 0+1 eller 1. Performace og sikkerhedsmessigt. Læs artiklerne som BAARF henviser til. De dokumenterer med alt tydelighed, at hastigheden er ringe og sikkerheden for dårlig.

Hvis man ønsker redundans i sit diskarray bør man benytte raid 1 i en eller anden form.

Selvfølgelig skal man også tage backup, men en backup afhjælper andre fejltyper, f.eks. brugerfejl, sletning af en fil. Raid giver et redundant filsystem, der giver højere tolerance overfor hardware fejl, og dermed højere oppetid. Backup giver ikke højere oppetid, men større sikkerhed.

Peter Valdemar Mørch

Ok, så ifølge BAARF er alle RAID-F (som inkluderer alle RAID-5,4,3) noget skrammel. Og det er bedre med RAID-10.

Ja, selvfølgelig! Men hvis jeg nu ikke er interesseret i 100% redundans (hvilket RAID-10 kræver), så er spørgsmålet:

Hvis mit alternativ er slet ingen RAID, eller RAID-0, er RAID-5 så ikke størrelsesordner bedre?

Og hvad med RAID-6? Er den så ifølge d'herrer bedre end RAID-5?

Peter

Anonym

Det er et lidt hypotetisk spørgsmål, da en minimal raid 5 er mere kostbar end en raid 1. Raid 5 kræver mindst 3 diske, raid 1 kun 2. Så hvis du skal vælge, så køb 2 diske der er lidt større og sæt dem i raid 1.

Raid 6 kræver endnu en disk, dvs. min 4 diske, da der er 2 partitions diske, dermed er den mere sikker end 5. Men performancemæssigt tror jeg ikke der er meget vundet for den minder meget om raid 5, og har de samme performance issues specielt under rebuild.

Hvis du slet ikke er interesseret i redundans, så brug raid 0 der fordobler du transferraten fra disken til controlleren.

Så jeg kan ikke finde nogle argumenter for at man skal benytte andet end raid 1, alternativt raid 10, hvis man ønsker redundante diske.

Men husk redundans er ikke meget værd hvis controlleren står af. Ikke alle controllere bruge samme algotimer, derfor kan man midste data hvis man ikke kan finde en controller der kan læse diskene. Men igen her er Raid 5 den dårligste løsning og sansynligheden for at reetablere data efter et controller crash er meget større ved raid 1 end ved raid 5.

Jarnis Bertelsen

Det er klart at et RAID 5 system har dårligere performance under genopbygning: Al data skal læses, der skal beregnes en checksum, og denne skal gemmes på den nye disk*. Men er det ikke det samme for en RAID1 løsning? Det er naturligvis en simplere opgave når det udelukkende er en spejling, men datamængden, der skal læses/skrives er vel næsten den samme og vel det det tager flest resourcer.

Så vidt jeg kan se, er problemet ikke at RAID teknologierne ikke skalerer til større diske, men at læse/skrive hastighed ikke øges så hurtigt som datakapaciteten, så det tager længere tid at læse en fuld disk.

Jarnis

*Jeg er klar over at det ligeså godt kan være originaldata (og ikke checksum), der er gået tabt og skal genskabes, men jeg kan ikke se at det rigtig betyder noget for opgavens omfang i denne sammenhæng.

Kenneth Ahrensberg

Jeg skal til at installere ny privat server, som jeg har tænkt mig at bruge til backup for resten af mine maskiner.

Jeg havde overvejet både RAID 1, 5 og 10, men er ud fra ovenstående gået væk fra RAID 5. Mange skriver dog at RAID faktisk ikke rigtigt kan bruges til backup. Hvorfor ikke det?

Jeg har købt to 1TB diske af forskellige producenter (WD og Seagate) med ellers ens specs. Vil det ikke være forholdsvis sikkert at bruge RAID 1 som backup mellem disse diske? Og er der stor forskel mellem hardware RAID fra et PCI controller kort og software RAID?

Anonym

Under Linux SW RAID 1 kan man godt tage en disk ud og køre videre på den anden som RAID eller læse den som almindelig mount. Jeg har ikke prøvet HW RAID eller andre SW RAID.

Må jeg iøvrigt anbefale at bruge SMART-monitorering som alle diske idag har. De har reddet mig flere gange med en early warning. Ved første indikation skiftes disken mens den stadigt virker. Fejler disk nummer 2 under genopbygning har man stadigt den første (hvis man kørte RAID 1!!) - og har man haft serveren off-line undervejs har man nok ikke mistet vigtige data i mellemtiden.

Log ind eller Opret konto for at kommentere