Bjerge af data gør deduplikering nødvendig - men giver problemer i skyen

Distribueret data storage giver nye udfordringer som skalerbarhed, redundans, pålidelighed og fejltolerance.

Langt de fleste af de data, vi gemmer, er overflødige. De bits og bytes, der gemmes på harddisken i bestemte blokke, er for en meget stor del identiske og behøvede slet ikke gemmes mere end én gang pr. system.

Løsningen på udfordringen hedder deduplikering og betyder kort sagt, at systemet holder øje med, om data allerede er lagret, hvorefter der kun gemmes metadata om, hvor man kan finde data. Der er flere måder at gøre det på.

En er at dele data op i blokke af 4K, der så sammenlignes indbyrdes. Er der match, gemmes blokken ikke igen, men kun henvisningen. Andre systemer sammenligner filer og konstaterer, om de er identiske.

Findes den pågældende fil allerede, gemmes kun metadata med adresse.

Deduplikering har dog været kritiseret for at skabe for meget trafik og for mange I/O-operationer på systemet, da data nu skal hentes mange steder fra frem for at blive læst ind i de bidder, som bufferen på systemet nu engang er i stand til at læse med.

Kritikken imødegås dog med, at systemerne – serverne og storage – bliver stadigt hurtigere, ligesom brug af flashram i den primære hukommelse betyder, at data i mange tilfælde slet ikke læses fra disken.

Deduplikering flytter i skyen

Den store opblomstring af deduplikering kom for godt fem år siden, hvor ram-priserne lå forholdsvis højt, og anvendelsen af cloud-løsninger ikke var så udbredt som i dag. Derfor er det også naturligt at undersøge, om deduplikering stadig er relevant at investere i.

Den helt store fordel ved deduplikering ligger i forbindelse med backup. Når data fylder meget mindre, siger det sig selv, at backup både er hurtigere at tage og også at læse ind. Også de fysiske racks til opbevaring af data fylder mindre efter deduplikering. Det betyder betragteligt mindre plads til storage i serverrummet og i pengeskabet til backup.

Nogle leverandører af systemer lover helt op til ti gange mindre storage-behov med deduplikering.

Kan halvere datamængder

De fleste eksisterende applikationer til deduplikering er dog ifølge CEO Serguei Beloussov fra Acronis udviklet til single-node storage-systemer. Dermed fungerer de ikke så godt i et cloud-miljø.

»Distribueret data storage giver nye udfordringer som skalerbarhed, redundans, pålidelighed og fejltolerance, hvor single node-deduplikationsmetoder ikke kan anvendes,« forklarer han og peger på, at vi de kommende år står foran eksponentielt voksende datamængder.

Arcronis har på denne baggrund indledt et forskningssamarbejde med forskere i Singapore, der skal bringe deduplikering ind i skyen.

»Ifølge vores estimater vil ny teknologi potentielt kunne halvere de lagrede datamængder,« påpeger Serguei Beloussov.

Det internationale analysefirma IDC anslår, at de globale datamængder stiger med 40 procent hvert år og vil ramme 44 zettabyte i 2020. Omkring 20 procent af data vil blive gemt i skyen.

Denne artikel er et uddrag af en artikel, som bragt i online-magasinet Version2 Insight Datacenter. Du kan downloade det gratis online-magasin fra dette link.

Kom gratis med til til landets største konference om datacenter- og cloudløsninger, Version2 Datacenter, som afholdes for fjerde år i træk.

For første gang, afholdes Version2 Datacenter i 2016 over 2 dage i Øksnehallens flotte omgivelser.

Version2 Datacenter er en konference med ca. 20 talere fra ind- og udland, og du kan derudover møde mange udstillere, som præsenterer deres bud på fremtidens datacenter- og cloudløsninger.

På konferencen kan du netværke med flere hundrede branchekollegaer med fokus på køb og drift af datacenter- og cloudløsninger. De to hovedspor på konferencen er infrastruktur- og cloudløsninger. Læs mere her

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (5)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Mogens Bluhme

Komprimering kan reducere datamængden kraftigt selv efter deduplikering men det afhænger af datatype. Ofte bruges en variant af Lempel-Ziv til inline komprimering og Huffman-kodning til yderligere reduktion af data, der har været i hvile et stykke tid. Det afhænger også af om det er primær eller sekundær storage så det er temmelig svært at udtale sig generelt om.

Man opnår ikke en hurtigere restore som sådan fordi datamængden er reduceret via dedup - rehydrering af data trækker i den anden retning. Noget der kan speede både backup og restore op er et mellemlag i form af PBBA (Purpose Built Backup Appliance), som multiplexer og reverse multiplexer datastrømmene til og fra de enkelte maskiner.

  • 0
  • 0
Søren Ferling

Jeg har ikke meget forstand på det, men jeg husker fra da jeg prøvede Bitcasa at de skrev at man godt kan deduplikere krypterede data, fordi man identificerer dubletter ud fra en hash-værdi af det krypterede.

Vel egentlig samme princip, som når man hacker passwords udfra lækkede hashværdier af dem.

  • 0
  • 0
Log ind eller Opret konto for at kommentere