Deduplikering frigiver lagerplads ? men kan kvæle ydelsen

Det lyder besnærende at kunne spare storage-plads ved ikke at gemme overflødige kopier. Men deduplikering skal bruges klogt, for ellers kan det gå ud over ydelsen.

Terabytes er ikke gratis, og derfor vil storageleverandørerne gerne sælge software, som kan hjælpe med at udnytte lagerpladsen bedst muligt, så man får mest for pengene. Men selvom deduplikering ser smukt ud på papiret, så har det også en pris i form af tabt ydelse.

Deduplikering går ud på, at man identificerer blokke af data, der er identiske. I stedet for at have to eller flere kopier liggende af de samme data, så beholder man én kopi og erstatter de øvrige med henvisninger til originalen. Henvisningerne optager langt mindre plads end den fulde kopi, og på den måde får man udnyttet kapaciteten bedre.

Men mange kunder opdager, at deduplikering går ud over ydelsen, når eksempelvis flere applikationer forespørger de samme data, eller der laves mange ændringer.

»Deduplikering kan have forskellige omkostninger. Hvis du har mange pointers til en enkelt kopi, så har du risikoen for, at der kommer mange forespørgsler på at få adgang til den ene kopi,« siger strategidirektør Miki Sandorfi fra Hitachi Data Systems.

Giver mening til backup
Han har gennem flere år arbejdet med netop deduplikering og kender til problemet med, at det, man håber på at vinde ved at mindske forbruget af gigabytes, bliver tabt igen på en kraftig stigning i I/O.

»Du er nødt til at se på, hvor deduplikering giver mening. Det er for eksempel til backup, for når du skal have fat i dataene igen, så er det én samlet datastrøm,« forklarer Miki Sandorfi.

Til backup kan deduplikering eksempelvis sørge for, at de snapshots, der bliver taget, kun indeholder de seneste ændringer. Det kan reducere diskforbruget kraftigt.

Men bruger man deduplikering på et system, hvor applikationer skal tilgå dataene hele tiden, så risikerer man, at det skaber en masse ekstra belastning, hvis der er tale om random access. Det kan være tilfældet, hvis systemet skal følge mange pointere til forskellige datablokke, som ligger fysisk spredt på storagesystemet.

»I for eksempel databaser har du ikke så mange kopier af data til at begynde med, så der vil sådan noget som eksempelvis dynamisk tiering give bedre mening,« siger Miki Sandorfi.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (11)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Kasper Sørensen

Det fremstilles som om deduplikering udelukkende har at gøre med at rydde op i redundante og replikerede data, men det er langt fra tilfældet. Som regel hvis du snakker om deduplikering indebærer det at matche data op imod hinanden for at se om man uvidende har dobbelt-registreret sine kunder, kontakter, projekter mv. Hvis du eks. har 3 kunder med flg. navne (og i øvrigt lignende øvrige data udover navnene):

K. Sørensen Casper Sørensen Kasper Sørensen

Så er der ganske god sandsynlighed for at der er tale om samme person. At rydde op i sådant et rod, det er deduplikering og det ØGER ydelsen - ikke ydelsen af systemerne, men ydelsen af forretningsprocesserne.

  • 0
  • 0
Kristian Vilmann

Der er sikkert noget rigtigt i artiklen, men det ligner godt nok et forsøg på at få kunderne til at vælge Hitachi frem for NetApp. Var det ikke en ide at få NetApp's syn på deduplikering i en tilsvarende artikel?

Og så er der lige den her:

Men bruger man deduplikering på et system, hvor applikationer skal tilgå dataene hele tiden, så risikerer man, at det skaber en masse ekstra belastning, fordi der er tale om random access, hvor en blok af data kan indeholde mange pointere.

Det er muligt der på et tidpunkt har været noget sandhed i det, men umiddelbart ligner det en tekst der er taget ud af en større sammenhæng. Det giver ikke umiddelbart ret meget mening.

  • 0
  • 0
Jesper Stein Sandal

[qoute]så er der lige den her:

Men bruger man deduplikering på et system, hvor applikationer skal tilgå dataene hele tiden, så risikerer man, at det skaber en masse ekstra belastning, fordi der er tale om random access, hvor en blok af data kan indeholde mange pointere.

Det er muligt der på et tidpunkt har været noget sandhed i det, men umiddelbart ligner det en tekst der er taget ud af en større sammenhæng. Det giver ikke umiddelbart ret meget mening.[/quote]

Hej Kristian Det er rigtigt, at det afsnit vist ikke blev helt så tydeligt, som det var tiltænkt, så nu har jeg omskrevet det.

Mht. f.eks. NetApp, så er de kendt for at være ledende på området, men de er næppe uenige i, at dedupe skal bruges rigtigt. Det er godt til backup og filservere, men gevinsten ved at spare plads opvejes i mange andre tilfælde af højere I/O. YMMV.

Mvh. Jesper Stein Sandal Version2

  • 0
  • 0
Nicolai Møller-Andersen

Der er skrevet tykke bøger om fordele og ulemper ved deduplikering. De handler om databaser, SQL og normalisering. Der kan alle pointerne hentes, men der er ikke ret mange, som finder SQL cool. Derfor fyldes alverdens harddiske med XML og andet semi-hjemmelavet gøgl, og vips... kan sælgeren fylde deduplikering på sin varmluftsballon. (Jeg er helt rolig nu)

  • 0
  • 0
Petter Glenstrup

Jeg anbefaler altid at bruge Deduplikering på primær storage, der hvor det giver mening. Men det bedste eksempel er virtuelle data, som VMware, VMDK filer, her kan man deduplikere med 80-90%. Samt med NetApp PAMII kan vi lægge alle de 4K blokke der tilbage i Cache istedet for på disk. Så vi ser faktisk med nogle typer data at vi kan bedre performance, bedre effektivitet og samtidigt sparre penge. Det er rigtigt at nogle OLTP databaser, ikke egner sig til DeDuplikering, men man kan jo slå det til og fra ! Det er klart at HDS ikke syntes det er smart at bruge deduplikering til alle former for data der ligger på primær storage. Jeg er også sikker på at NetApp, hvis de ville, kunne skrive en masse om HDS som de syntes er en dårlig ide. Men jeg er glad for at NetApp skriver mere om hvad de kan og ikke så meget om hvad andre kan og ikke kan. Som noget nyt kan jeg også nævne at NetApp nu har Data komprimering på primær storage, så vi nu kan deduplikere og komprimere, de samme data (fx. video filer) så der hvor de giver mening at gøre det ene frem for det andet, gør man det. Det hvor man kan få noget ud af begge, ja så slår man det til. Igen har NetApp mange features der gør at vores storage kan både sikre SLA, TCO, ricisi, effektivitet og performance !

  • 0
  • 0
Niels Astor

Kristian du skriver:

Der er sikkert noget rigtigt i artiklen, men det ligner godt nok et forsøg på at få kunderne til at vælge Hitachi frem for NetApp. Var det ikke en ide at få NetApp's syn på deduplikering i en tilsvarende artikel?

Min kommentar:

Tja, hvad med at få EMC's syn på deduplikering, de er ligesom verdens største inden for storage og deduplikering......

:-) Niels Astor, EMC Danmark

  • 0
  • 0
Jens Melhede

.....ja så betyder det jo at ovenstående ikke længere er en generel betragtning, men blot et udtryk for at sådan kan det være i nogen storage løsninger, men bestemt ikke i f.eks. en NetApp løsning. Læs mere og se fine illustrationer her: http://blogs.netapp.com/virtualstorageguy/2010/03/transparent-storage-ca...

Lige en sidste kommentar: hvad vil du helst køre i, verdens største lastbil eller en hurtig Porsche?

;-) Jens Melhede, NetApp Danmark

  • 0
  • 0
Jonas Dietz-Olsen

Jens, nu er fordelen ved EMC, at der ikke er behov for at vælge, om man ønsker at køre i verdens største lastbil eller en hurtig Porsche.

EMC er markedsledende indenfor alt ekstern storage (SAN/NAS/CAS etc.), og anerkendt som den mest visionære og eksekverende virksomhed i storage industrien. Desuden er EMC også #1 når det kommer til backup, hvor teknologier som deduplikering giver enorme besparelser. Ikke nok med, at EMC er #1 i fohold til source baseret deduplikering (EMC Avamar), hvor deduplikeringen bliver fortaget på hosten inden det lander på backup mediet, så er EMC også #1 når det kommer til target baseret deduplikering (EMC DataDomain) - en virksomhed som NetApp vidst også var interesseret i?

Jonas Dietz-Olsen, EMC.

  • 0
  • 0
Jens Melhede

En PorscheLastbil? Det lyder lidt som Frankenstein eller FrankenStorage i mine ører.

Den rene vare til mig - tak.

Det er faktisk utroligt at der er nogen som ikke køber EMC produkter når nu de/I er så markedsledende, visionære og eksekverende indenfor alt. Iøvrigt tilykke med jeres nyeste opkøb af NAS løsningen Isilon, det er jo altid godt med et par valgmuligheder indenfor NAS, nu når I også har flere på hylderne indenfor SAN og Backup osv.

Køb dit nye hifi anlæg i Bilka eller gå i HiFiKlubben - der er op til dig ;-)

  • 0
  • 0
Log ind eller Opret konto for at kommentere