Uden ordentlig arkitektur kan din data lake ende som en sump

Data lakes er blevet det ny must-have til analytics og informationsstyring. Men der er alvorlig risiko for at drukne, siger Gartner.

LONDON: Hvis du har tænkt dig at dyppe tæerne i en data lake, så er der god grund til først at lave en strategi for, hvordan du undgår, at ende med en sump.

Data lakes er blevet en populær trend inden for analytics og informationsstyring. Men ofte bliver løsningen implementeret uden nærmere overvejelser om, hvad den skal bruges til og hvordan, fortæller research VP hos Gartner Svetlana Sicular ved analysehusets analytics-konference, der lige nu finder sted i London.

»Forskellige data lakes adresserer forskellige behov,« indleder hun.

»Så din første opgave er at finde ud af, hvad dine brugere har behov for, og hvad de vil have.«

Så sent som i sidste måned sad analytikeren med til et møde hos it-selskabet, hvor CEO'en ville vide, hvorfor datasøen ikke gav mere værdi. Et år efter den var blevet implementeret.

Læs også: Elendig datakvalitet hæmmer udbredelsen af Big Data

Vi har brug for mere data, lød svaret. Men på det tidspunkt burde værdien af en data lake allerede være åbenbar, mener Svetlana Sicular. Hvis den altså er planlagt ordentligt.

»Afhængig af, hvordan data skal anvendes, skal du organisere det forskelligt. Du vil indsamle data anderledes,« siger hun og fortsætter:

»Du vil sidde over for en CFO, der vil vide, hvad han eller hun betaler for. Du skal vide, hvem dine brugere er. Du skal vide, hvem der kan svømme, og hvem der ikke kan.«

Tåge

Svetlana Sicular medgiver, at en tåge har lagt sig over data-søen, og det er svært at gennemskue, hvad der egentlig skal til for at få succes, så søen ikke ender som en losseplads, hvor data tager hen for at dø.

»En data lake er ikke et data warehouse,« understreger analytikeren.

Et warehouse kræver en meget præcist defineret datamodel, som gør det nemt at fortolke data. Til gengæld kræver en sådan løsning meget tid at designe og forfine.

Læs også: Kan fremtidens Data Warehouse-udfordringer løses med DW-Appliances?

I en data lake kan virksomheder dumpe data i fra mange forskellige kilder – uden nogen på forhånd defineret datamodel og i den form, dataen nu engang har.

Og mens hylderne i et data warehouse er fyldt med de data, som er udvalgt i datamodellen, tager søen imod al data fra alle steder i virksomheden.

Det gør det muligt at lave dataanalyser, som ikke kan udføres i warehouset. Men det kræver også en del af brugerne.

»Data scientists kan svømme. De kan bruge værktøjer, de kan kode i 'R', de har tolerance for beskidt data,« siger Svetlana Sicular.

Andre brugere har brug for en redningsvest.

Tre typer arkitektur

Man kan overordnet opdele data lakes i tre forskellige arkitektur-typer, forklarer Svetlana Sicular.

I den første type - inflow data lake– flyder data fra alle datakilder ind i en central pøl. Designprincippet minder mest af alt om en data hub og kan være en god måde, hvorpå man kan nedbryde siloer mellem afdelinger i en virksomhed.

Til gengæld kræver denne model en del governance, fordi ikke alle brugere skal have adgang til samme data, og en del modellering i bruger-enden, fortsætter analytikeren.

Læs også: Mainframen og elefanten i rummet

Den anden arkitektur – outflow data lake – fokuserer på at samle data så tidligt som muligt, for fx at facilitere realtime dataanalyse. Det betyder også at data skal processeres hurtigere.

I den sidste løsning – som Gartner-analytikeren kalder data science lab – etableres data-søen som en lagerplads for virksomhedens datascientists. Fordelen ved kun at lade dataeksperterne arbejde i søen er, at løsningen kræver et minimum af governance, siger Svetlana Sicular.

En sø i skyen

De forskelige typer data lakes udelukker ikke hinanden, siger analytikeren. Men du bør starte med én enkelt:

»Du vil have nok arbejde i begyndelsen med én lake, for at få styr på alle de bevægelige dele, som infrastruktur og brugere.«

Læs også: Storbank: Skyen er den ideelle platform for at stoppe hvidvask og svindel

Når det kommer til valg af teknologi, skal valget igen reflektere det specifikke ønske med datasøen. I nogle år har data lake været synonymt med Hadoop, men det er en trend i opbrud. De fleste cloud-udbydere tilbyder i dag løsninger, som er navngivet data lake.

Men hvis dit system kalder på det, kan du også bruge et helt almindeligt database management system, siger Svetlana Sicular:

»Hvis din data lake består udelukkende af logfiler, kan du overveje en NoSQL-database. Det er helt legitimt. Der er ikke en enkelt teknologi, som skal til for at understøtte en data lake.«

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere