Detail-gigant: Lad være med at antage, at du kan stole på noget som helst data

Illustration: Nessluop/Bigstock
En data lake er en af århundredets bedst opfindelser - hvis du ikke fylder den med skidt, siger softwarearkitekt.

Den hollandske detailhandel-kæmpe Albert Heijn har 1.000 butikker i Holland, og ingen af dem har noget lager. Derfor skal levering af nye varer ske med enorm præcision.

»Hvis du har for meget, så fylder det op, og hvis du har for lidt, har du tomme hylder og så mister du kunder,« forklarer Kees Cassee, softwarearkitekt hos Albert Heijn, på Gartners Data og Analytics-konference, der løb af stablen i London i sidste uge.

Når leveringer skal være præcise, skal data være præcise, og derfor gik datailkæden sidste år i gang med et analytics-projekt, der skulle forbedre virksomhedens data-grundlag.

Udgangspunktet var ifølge Kees Cassee, at man ikke kan stole på data - uanset, hvor det kommer fra.

»Systemer forandrer sig og bliver opdaterede, folk forandrer sig, processer ændrer sig - og hver gang ændrer data sig, og det du stoler på i dag, kan være ændret i morgen,« forklarer han.

Læs også: Uden ordentlig arkitektur kan din data lake ende som en sump

Til formålet etablerede Cassees hold en data lake, der kan samle alle typer data i alle formater.

Kigger man på en typisk data lake-arkitektur, vil man ofte se, at virksomheder opererer med et lag af trusted data - en model, som Kees Cassee er særdeles skeptisk over for.

»Betyder det at du har data, du ikke stoler på? Og hvad vil du bruge det til,« spørger han retorisk.

Kees Cassee vil ikke have data i sin data lake, der ikke skal andvendes til en konkret use case. Illustration: Kees Cassee/LinkedIn

Forkert data får kæden til at gå i stå

I stedet for et lag af data, man kan have tillid til, ønskede Cassee, at al data i projektets data lake blev verificeret.

»Data lakes er fantastiske. Jeg synes, det er en af de bedste opfindelser dette århundrede. Men hvis der er data i, som du ikke kan stole på, så bliver hele din data lake ubrugelig,« understreger han.

Første skridt på at sikre, at data er til at stole på, er at automatisere al data-integration.

»En af vores data scientist fik en csv-fil fra vores online-afdeling med transaktioner. Ugen efter er der fejl i hans R-script, fordi online-afdelingen ændrede en kolonne i deres data. Derfor vil vi gerne undgå manuelle uploads,« siger Kees Cassee.

Læs også: Fra skygge-it til kontrolleret anarki: Sov godt om natten trods data-tag-selv-bord

Derudover bliver al data fra leverandører tjekket inden det får lov til at komme i datasøen. Hvis der fx er fejl i en leverandørs ingrediensliste, kan folk med allergier blive syge, påpeger Kees Cassee.

Lige så vigtige er de mere logistiske data.

»Mange af vores varehuse er delvist automatiseret. Hvis vi får en pakke the, der fylder en centimeter mere end angivet, så kan det betyde, at kassen med fire pakker the pludselig ikke passer ind i lageret, og så går hele kæden i stå,« siger Kees Cassee.

Persondata sorteres fra

Det er heller ikke al data, der skal ned i den nye data lake - selvom det er korrekt og verificeret.

»Leverandører siger ofte, at storage er billigt, så man skal bare gemme det hele. Det gør vi ikke,« siger Kees Cassee.

Læs også: Datachef i topledelsen: Din virksomhed bør - sandsynligvis - have en Chief Data Officer

»Vi kigger på use cases. Kun hvis nogen virkelig har brug for data, lægger vi det ind i vores data lake.«

Det samme princip hjælper projektet med at overholde lovkrav som fx GDPR. Ingen transaktionsdata gemmes i data-søen før persondata er filtreret fra.

»Kun hvis vi virkelig har brug for persondata - som fx en kundes loyalty-nummer - gemmer vi det, og i så fald hasher vi det først,« siger Kees Cassee.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Kommentarer (3)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Niels-Arne Nørgaard Knudsen

det er netop derfor man skal "lege" lidt med sociale medier. like noget du ikke bryder dig om, kommenter artikler der egentlig ikke har din interesse og så videre. på den måde har de ikke rigtig et præcist billede af dig. så har du givet dem forkerte data til at føde deres algoritme. du har altså forurenet den.

nå ja. lad være med at være venner med nogen men hold dig til de sider/grupper du er der for. du kan jo stadig skrive sammen med folk.

at en butik husker hvad jeg har købt før og anbefaler produkter på baggrund af det anser jeg egentlig bare for at være en service.

selvfølgelig kan det virke skræmmende hvor meget "nettet" samlet set hved om hver enkelt af os men er det noget at frygte når det kommer til stykket? hvis du ændrer hvad du vil stemme på grundet et tweet så ville du også falde i fordi en eller anden står med et banner og taler dunder. det er bare hurtigere med nettet og man kan nå mange flere på en gang men det er også den virkelig store forskel.

Bjarne Nielsen

Udemærket artikel, som jo går op imod den igangværende hype omkring Big Data og "kineserne kommer".

Data er ikke det samme som information, og vejen til viden går igennem information og derfor kun indirekte igennem data. Det er nemt at skaffe flere data, uden at det resulterer i mere information, og dermed ikke giver bedre viden.

Hvis man kan forstå tysk, så havde Süddeutsche Zeitung for nyligt en interessant artikel med nogenlunde samme budskab: Dr. Data. Her påpeges det bl.a. at når man trækker flere data ind, så vil der også komme flere falske positiver. Der er flere muligheder for at se samtidig bevægelser, som ikke har rod i virkeligheden. Big Data vil næppe gøre vores sundhedsvæsen bedre, kun mere ressourcekrævende.

Tyskerne har fundet samme kilde til falske sammenhænge, som Pelle linkede til i debatten til en anden artikel (tak, Pelle, det er et fantastisk link, som fortjener gentagelse: http://www.tylervigen.com/spurios-correlations), nemlig den klare "sammenhæng" der er imellem forbruget af ost og antallet at folk, som på tragisk vist blive kvalt i deres egne lagner.

Eller hvad blev der er den førhen så omtalte Google algoritme til at forudsige influenza-epidemier ... den blev vist lagt stille i graven efter at have taget voldsomt meget fejl - den var meget bedre til at forudsige fortiden end fremtiden.

Flere data af tvivlsom kvalitet er ingen hjælp, tværtimod. Man bør reflektere over, at de fleste terrorister allerede var "på radaren", men blev nedprioriteret, fordi man havde travlt med at undersøge alt det meget andet, som også var "på radaren".

Jeg har i en anden debat ytret mig som spørgeskemaundersøgelser (det indlæg må I selv finde, hvis I er nysgerrige nok), og der er et skær af tilsyneladende objektivitet ved store datasæt og resultater med mange decimaler. Det leder til mulighed for overfortolkning, og den megen fokus på indsamling af data af tvivlsom kvalitet og samkøring uden tanke for kontekst, vil derfor næppe føre til bedre viden eller beslutninger, men derimod føre til fejlslutninger og "analysis paralysis" - giv en mand et ur, og han ved hvad klokken er ... giv ham to, og han vil for evig være i tvivl.

Vi har brug for kvalitet, ikke kvantitet. Vi skal værne om den vigtige viden. Lad ikke værdifulde informationer drukne i en flod af tvivlsomme data.

Log ind eller Opret konto for at kommentere
Pressemeddelelser

Welcome to the Cloud Integration Enablement Day (Bring your own laptop)

On this track, we will give you the chance to become a "Cloud First" data integration specialist.
15. nov 2017

Silicom i Søborg har fået stærk vind i sejlene…

Silicom Denmark arbejder med cutting-edge teknologier og er helt fremme hvad angår FPGA teknologien, som har eksisteret i over 20 år.
22. sep 2017

Conference: How AI and Machine Learning can accelerate your business growth

Can Artificial Intelligence (AI) and Machine Learning bring actual value to your business? Will it supercharge growth? How do other businesses leverage AI and Machine Learning?
13. sep 2017
Jobfinder Logo
Job fra Jobfinder