LONDON: Hvis du har tænkt dig at dyppe tæerne i en data lake, så er der god grund til først at lave en strategi for, hvordan du undgår, at ende med en sump.
Data lakes er blevet en populær trend inden for analytics og informationsstyring. Men ofte bliver løsningen implementeret uden nærmere overvejelser om, hvad den skal bruges til og hvordan, fortæller research VP hos Gartner Svetlana Sicular ved analysehusets analytics-konference, der lige nu finder sted i London.
»Forskellige data lakes adresserer forskellige behov,« indleder hun.
»Så din første opgave er at finde ud af, hvad dine brugere har behov for, og hvad de vil have.«
Så sent som i sidste måned sad analytikeren med til et møde hos it-selskabet, hvor CEO'en ville vide, hvorfor datasøen ikke gav mere værdi. Et år efter den var blevet implementeret.
Vi har brug for mere data, lød svaret. Men på det tidspunkt burde værdien af en data lake allerede være åbenbar, mener Svetlana Sicular. Hvis den altså er planlagt ordentligt.
»Afhængig af, hvordan data skal anvendes, skal du organisere det forskelligt. Du vil indsamle data anderledes,« siger hun og fortsætter:
»Du vil sidde over for en CFO, der vil vide, hvad han eller hun betaler for. Du skal vide, hvem dine brugere er. Du skal vide, hvem der kan svømme, og hvem der ikke kan.«
Tåge
Svetlana Sicular medgiver, at en tåge har lagt sig over data-søen, og det er svært at gennemskue, hvad der egentlig skal til for at få succes, så søen ikke ender som en losseplads, hvor data tager hen for at dø.
»En data lake er ikke et data warehouse,« understreger analytikeren.
Et warehouse kræver en meget præcist defineret datamodel, som gør det nemt at fortolke data. Til gengæld kræver en sådan løsning meget tid at designe og forfine.
I en data lake kan virksomheder dumpe data i fra mange forskellige kilder – uden nogen på forhånd defineret datamodel og i den form, dataen nu engang har.
Og mens hylderne i et data warehouse er fyldt med de data, som er udvalgt i datamodellen, tager søen imod al data fra alle steder i virksomheden.
Det gør det muligt at lave dataanalyser, som ikke kan udføres i warehouset. Men det kræver også en del af brugerne.
»Data scientists kan svømme. De kan bruge værktøjer, de kan kode i 'R', de har tolerance for beskidt data,« siger Svetlana Sicular.
Andre brugere har brug for en redningsvest.
Tre typer arkitektur
Man kan overordnet opdele data lakes i tre forskellige arkitektur-typer, forklarer Svetlana Sicular.
I den første type - inflow data lake– flyder data fra alle datakilder ind i en central pøl. Designprincippet minder mest af alt om en data hub og kan være en god måde, hvorpå man kan nedbryde siloer mellem afdelinger i en virksomhed.
Til gengæld kræver denne model en del governance, fordi ikke alle brugere skal have adgang til samme data, og en del modellering i bruger-enden, fortsætter analytikeren.
Læs også: Mainframen og elefanten i rummet
Den anden arkitektur – outflow data lake – fokuserer på at samle data så tidligt som muligt, for fx at facilitere realtime dataanalyse. Det betyder også at data skal processeres hurtigere.
I den sidste løsning – som Gartner-analytikeren kalder data science lab – etableres data-søen som en lagerplads for virksomhedens datascientists. Fordelen ved kun at lade dataeksperterne arbejde i søen er, at løsningen kræver et minimum af governance, siger Svetlana Sicular.
En sø i skyen
De forskelige typer data lakes udelukker ikke hinanden, siger analytikeren. Men du bør starte med én enkelt:
»Du vil have nok arbejde i begyndelsen med én lake, for at få styr på alle de bevægelige dele, som infrastruktur og brugere.«
Når det kommer til valg af teknologi, skal valget igen reflektere det specifikke ønske med datasøen. I nogle år har data lake været synonymt med Hadoop, men det er en trend i opbrud. De fleste cloud-udbydere tilbyder i dag løsninger, som er navngivet data lake.
Men hvis dit system kalder på det, kan du også bruge et helt almindeligt database management system, siger Svetlana Sicular:
»Hvis din data lake består udelukkende af logfiler, kan du overveje en NoSQL-database. Det er helt legitimt. Der er ikke en enkelt teknologi, som skal til for at understøtte en data lake.«