bloghoved brian mühldorff

Datadrevet forretningsudvikling – hvorfor Big Data?

I har måske hørt om det før? Begejstringen der ingen ende vil tage og løfterne om næsten ubegrænsede muligheder for fornyet omsætning og profit. Udbasuneringen af erhvervslivets, og i nogle tilfælde næsten, verdens frelser – teknologien der kan svare på alle de spørgsmål vi kan finde på at stille.

Som det måske fremgår, har jeg ikke købt helt ind på Big Data som en digital messias der ubetinget kommer til at ændre måden vi driver virksomhed og samfund på. Men, jeg synes nu konceptet og teknologien er interessant. Dertil er tanken om at udvikle virksomheden gennem brugen af Big Data interessant – om end jeg ser en evolution frem for en revolution.

Men lad os lige etablere referencerammen, inden vi går videre. For hele sfæren omkring data er rimelig fortættet af begreber. Vi har jo allerede et data warehouse og business intelligence, men nu også analytics og advanced analytics - hvad skal vi så med Big Data? Lad os se på hvordan det hænger sammen.

Et koblet overblik – fra data til Big Data

Data der ligger på en digital platform giver ingen værdi i sig selv. Værdiskabelsen sker når data trækkes ud fra platformen og den analytiske proces initieres og skaber grundlag for efterfølgende handling. Det analytiske element introduceres med konceptet business intelligence. Business intelligence er et parablybegreb der, lidt kantet, dækker over standard- og ad hoc rapportering samt visualisering af data.

Et data warehouse er en platform på hvilken data opsamles. Vi opsamler, renser, grupperer og beriger data til brug for analyse. Data opsamles typisk fra en bred række datakilder og integreres således at data fra de opsamlede systemer samlet set repræsenterer virksomhedens processer i en sammenhæng. Data persisteres på relationelle platforme, eller i in-memory løsninger.

Softwareleverandører og konsulenthuse har i en periode talt meget om analytics og især begrebet advanced analytics er blevet hot. Analytics-begrebet dækker principielt over en re-branding af business intelligence som paradigme – det hele er nu mere proaktivt; mindre fokuseret på teknologi, og mere fokuseret på forretningssiden.

Advanced analytics dækker over modeller der kan afgøre udfaldet af en række opsatte hypoteser, ved at finde skjulte sammenhænge i et bredt antal af variable i et datasæt – i gamle dage kaldte man vist, overordnet, denne disciplin for data mining.

Teknologien der understøtter Big Data differentierer sig fra de velkendte relationelt baserede databaseplatforme. Uden at dykke alt for meget ned i kemien omkring ACID og BASE, eller i CAP teoremet kan man sige at Big Data platformenes fokus er på tilgængelighed, og evnen til at bearbejde store mængder data gennem distribution af indsatsen i et kosteffektivt setup. Området er så småt ved at være modnet til et niveau hvor det rent faktisk kan støtte op om at skabe værdi for virksomheden – og ikke længere, alene, er en ’teknologisk legeplads’ præget af umoden open source teknologi der svært integrerer med dit øvrige enterprise landskab.

Og hvordan passer Big Data så ind?

Big Data kan egentlig passe ind flere steder – det afhænger meget af den kontekst man ønsker at applicere Big Data i. Big Data kan jo optræde som en del af dit operationelle miljø, såvel som dit analytiske miljø.

Big Data anvendt i en operationel kontekst vil give mening når man betragter den automation bølge der skyller ind over produktionsindustrien i øjeblikket. Kravet om øget produktivitet per lønkrone driver behovet for automatisering, der igen kan drives af data. Use cases for prædikativt vedligehold af produktionsapparatet, gennem brugen af advanced analytics, med en forhøjet OEE til følge eller muligheden for, eksempelvis, at planlægge afviklingen af produktionen i realtid åbner for en række interessante muligheder.

Fra et analytisk perspektiv kan Big Data anvendes i processen med at berige indholdet af dit data warehouse yderligere. Data warehouset som vi kender det, har i mindst lige så høj grad, som tidligere, sin eksistensberettigelse i en Big Data æra. Med begreber og definitioner bredt- og konsistent forankret i organisationen, er der en god mulighed for at berige det eksisterende data grundlag med data fra nye kilder – kilder der traditionelt set, har været svære at håndtere i den nuværende data warehouse infrastruktur, men som en Big Data platform er designet til at håndtere. Indenfor alle brancher er der muligheder for at berige sit analytiske grundlag med Big Data, men nærliggende eksempler vil være inden for bank- og finans, hvor allerede eksisterende churn- og livscyklus modeller ville kunne forfines yderligere med eksterne og offentlige tilgængelige data, data fra sociale medier, etc.

Indrømmet – I behøver naturligvis ikke have et data warehouse for at lave analyser der baser sig på Big Data. I en kontekst hvor fokus er på en isoleret proces kan Big Data udgøre det analytiske grundlag – og det vil ligeledes være muligt at kommunikere resultaterne, men hvis fokus er datadrevet forretningsudvikling er det nødvendigt med en bredere referenceramme for data – og her tjener data warehouset og den tilhørende informationsmodel for alvor sit formål.

Hvad skal I tage med herfra?

Mit budskab er ikke at Big Data er den eneste sande vej videre frem – tvært i mod. Big Data skal ses som et supplement til det datagrundlag der allerede måtte eksistere i organisationen. Den vigtigste take away er i virkeligheden bare at I bruger Jeres data – at der fortsat eksisterer en nysgerrighed, at Big Data ikke alene afskrives som hype, men som et begreb der, desværre, er over-markedsført. At I ikke afskriver ustruktureret data som ubrugeligt, fordi det ikke kan konsumeres af de værktøjer I for nærværende har til rådighed. At I ikke lader Jer skræmme af et højt antal data punkter per sekund eller at mængderne overvælder. Der findes teknologi der understøtter alle ovenstående punkter – det kræver naturligvis en investering - både i selve teknologien og i brugen af den, men det er trods alt bare teknologi og uddannelse.

Den sande udfordring ligger nok snarere i organisationens evne til at opsætte de rigtige hypoteser og spørgsmål, fortolke svarene og, ikke mindst, omsætte disse svar til konkrete handlinger. Altså - at I er nysgerrige og kreative i tilgangen til brugen af data.

Kommentarer (9)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Peter Jensen

...er bare en smart betegnelse for overvågning og udnyttelse af brugere til at tjene flere penge. Det handler om at lære alt om den enkelte, og derved kunne identificere brugerens svage punkter, for så at kunne udnytte dette/disse til at maksimere firmaets profit.

Martin Jünckow

Jeg var for nylig til foredrag med en Big Data specialist.

Denne havde følgende definition af hvad Big Data er "Big Data er når mængden overstiger hvad vi er istand til på normal vis at overskue og forstå sammenhængende i". Dvs. når man er nød til at bruge statistisk analyse for at forsøge at finde patterns i dataene, så taler vi om Big Data.

Det interessante ved det statement er at det reelt ikke handler om Gigabytes, Terabytes eller Petabytes - i praksis kunne 1 MB data indeholde rigelig med information til at statistisk analyse er nødvendig for at finde patterns og tendenser deri.

En anden interessant pointe heri er at Business Intelligence reelt kun er Big Data hvis man bruger dataene i sit Datawarehouse til at finde tendenser og patterns i sine forretningsdata. Hvis man primært bruger sit Datawarehouse som grundlag for diverse standard rapportering, så har det ikke meget med Big Data at gøre uanset hvor mange Terabytes man lagrer deri.

Men det at vi konstant er nød til at forsøge at definere hvad Big Data er siger vist mest af alt noget om hvilket buzzword det er og at man nok bør være påpasselig med at bruge det, for hvem ved hvad modtageren opfatter det som.

Flemming Nielsen

Ganske udmærket gennemgang, og især synes jeg dit sidste afsnit rammer en central pointe omkring tolkning af statistiske regressionsanalyser, som både er tudsegammel og alligevel brandaktuel i en Big Data kontekst:

Blot fordi der viser sig en høj korrelationsværdi (nær 1) ved en regressionsanalyse af forskellige datasæt, der smækkes sammen fra forskellige kilder, så er det ikke ensbetydende med, at dette også indikerer en reel kausalitet (årsag og virkning), mellem trenden i datasæt A som mulig årsag til trenden i datasæt B. Det kan rent faktisk vise sig at være et freaky tilfælde, at korrelationen er høj, uden at de to sæt af data forklarer noget som helst, forstået som ren kausal årsags-virkning sammenhæng.

Den klassiske læresætning indenfor statistikken er jo:

https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation

Og så er spørgsmålet, hvad man kan bruge det spottede mønster til overhovedet, ift. at træffe beslutninger, øge indsatsen ift. datasæt A for at maksimere effekten i datasæt B.

Den morsomme anekdote jeg fik fortalt til forelæsningerne i statistik på universitetet for mere end 20 år siden, var de to datasæt for hhv. antallet af storke i DK hen over en årrække og antallet af nyfødte babyer i den tilsvarende årrække. Bingo! Høj korrelationsværdi mellem de to datasæt ..... men hvad sagde det egentlig om kausaliteten mellem storke og nyfødte babyer?

Og hvad nu hvis der er mange kausale årsager til en given effekt, men man blot endnu ikke har fået samlet datasæt ind på samtlige årsagsparametre (A1, A2, A3 osv.)?

Det er fint nok med værktøjerne, men man skal altså stadigvæk gøre sig nogle kvalificerede og realistiske tanker om, hvordan tingene hænger sammen ude i virkeligheden, så man undgår at stirre sig blind på et mønster, som man mener at kunne spotte rent statistisk/matematisk.

Nikolaj Brinch Jørgensen

Men...

Data persisteres på relationelle platforme, eller i in-memory løsninger.

... eller MOLAP, eller andre platforme.

Området er så småt ved at være modnet til et niveau hvor det rent faktisk kan støtte op om at skabe værdi for virksomheden – og ikke længere, alene, er en ’teknologisk legeplads’ præget af umoden open source teknologi der svært integrerer med dit øvrige enterprise landskab.

Området har været modent længe (R, Hadoop), men først nu har den etablerede BI branche fået fart på, da de virkeligt er pressede af ganske gratis, meget moden Open Source teknologi. Teknologi der er billigere at anvende og drifte (BI software fra traditionelle leverandører er MEGET proprietært, dyrt, og omkostningsfuldt at drifte).

Mit budskab er ikke at Big Data er den eneste sande vej videre frem – tvært i mod. Big Data skal ses som et supplement til det datagrundlag der allerede måtte eksistere i organisationen.

Korrekt, men Big Data kan sagtens afløse traditionel Warehousing/BI, og være næste evolution.
Lets face it: Traditionel Statistics/DWH/BI/(Analytics += Advanced), har mere eller mindre været den etablerede branches rebranding af eksisterende produkter gennem de sidste par årtier. Deres cash cows får nu reel konkurrence.

Brian Mühldorff

Tak for feedbacken på mit indlæg, men ..

Området har været modent længe (R, Hadoop), men først nu har den etablerede BI branche fået fart på, da de virkeligt er pressede af ganske gratis, meget moden Open Source teknologi.


R er bestemt et modent og bredt adopteret værktøj og i store træk også interegreret i de fleste enterprise platforme i dag? Platformsmæssigt vil jeg dog mene der fortsat er et stykke vej. hvis adoption skulle være et udtryk for modenhed. I OLTP regi er det også fortsat meget begrænset hvor mange virksomheder der afvikler deres GL på en Hadoop platform?

Korrekt, men Big Data kan sagtens afløse traditionel Warehousing/BI, og være næste evolution.


Jeg ser ikke de to typer af platforme eller data som konkurrerende, men som supplementer til hinanden. Big Data bliver, i min optik, for alvor interessant når det supplerer data fra forretningssystemerne, således at billedet af forretningens processer bliver komplet.

Lets face it: Traditionel Statistics/DWH/BI/(Analytics += Advanced), har mere eller mindre været den etablerede branches rebranding af eksisterende produkter gennem de sidste par årtier. Deres cash cows får nu reel konkurrence.


På analysesiden er jeg enig med dig i at R tjener sit formål, som en modvægt til de tradtionelle analyse værktøjer, men med introduktion/udviklingen af BI værktøjerne (SAP Business Objects, Qlik, etc.) er adoptionen af brugen af data i organisationen højnet markant - det er jo fortsat begrænset hvor mange slutbrugere der mester en nested SQL.

Nikolaj Brinch Jørgensen

Platformsmæssigt vil jeg dog mene der fortsat er et stykke vej. hvis adoption skulle være et udtryk for modenhed.

Korrekt, men det er det så heller ikke. Snarer er det modenhed af organisationerne der benytter værktøjerne, og dem som sælger værktøjerne.
Det er klart at SI'erne og virksomheder som Affecto, Deloitte osv. ikke kan scorer 15% markup på Open Source der ikke koster noget, og derfor er det mere interessant med SAP BO og hvad de ellers hedder.

Adoptionen af Oracle RDBMS er jo heller ikke et udtryk for modenhed, lige så lidt som det er et udtryk for at det skulle være den bedste database, blot fordi den er mest udbredt.

Jeg ser ikke de to typer af platforme eller data som konkurrerende, men som supplementer til hinanden.


Nej du har ret i en ting. Traditionel DWH/BI kan ikke udkonkurrere Big Data platformene, men Big Data platformene kan (med lethed) afløse traditionel DWH/BI, og give helt andre muligheder, i og med de også er meget mere fleksible.
F.eks. er det muligt med de fleste Big Data værktøjer både at scale up og scale out, hvilket en relationel platform på ingen måde kan.

På analysesiden er jeg enig med dig i at R tjener sit formål, som en modvægt til de tradtionelle analyse værktøjer, men med introduktion/udviklingen af BI værktøjerne (SAP Business Objects, Qlik, etc.) er adoptionen af brugen af data i organisationen højnet markant - det er jo fortsat begrænset hvor mange slutbrugere der mester en nested SQL.

De færreste af slutbrugerne benytter slutbrugerværktøjerne til at lave nested SQL - der udføres prædefinerede queries mod DB.
SQL er iøvrigt outdated i BI sammenhæng, da det er alt for langsomt (og data i 2D er ikke særligt interessante).

Slutbrugerværktøjerne er for det meste gode salgsværktøjer, for de sælgere der vil skubbe produkter ud hos kunderne.

Det mest anvendte slutbrugerværktøj er stadigt Excel, selvom BI har gjort sit 20 år lange forsøg på at slå det ihjel med Business Objects, Cognos, Brio osv.

Slutbrugerværktøjer handler om visualisering og her bør nævnes Tableau, Kibana som glimrende værktøjer (sidste er Open Source, og integrerer med Elastic Search - der benytter Lucene og har svartider der langt overstiger noget SQL nogensinde kan komme i nærheden af - sagde jeg at licensen er uden omkostninger :-).

Vi kan takke Netflix, Google, Facebook, Elastic Search, Apache, Amazon m.fl. for det store udbud der i dag er af Open Source og frie værktøjer, der kan erstatte den portefølge af proprietær og MEGET dyr software, der får DWH/BI til at snurre rundt i diverse virksomheder.
Og så må vi ikke glemme Excel, det er glimrende til ad hoc rapportering.

Brian Mühldorff

Korrekt, men det er det så heller ikke. Snarer er det modenhed af organisationerne der benytter værktøjerne, og dem som sælger værktøjerne.


Det vigtige er vel den organisation der skal adoptere værktøjet, og her er det vigtigt at klarlægge modenhed, inden man blindt råber "Big Data er det hotte - det må vi da ha' og gerne med noget agilt, open source ovenpå" - om ikke andet, hvis man ønsker at anvende data som en del af en konstruktiv udvikling.

Big Data platformene kan (med lethed) afløse traditionel DWH/BI, og give helt andre muligheder, i og med de også er meget mere fleksible.F.eks. er det muligt med de fleste Big Data værktøjer både at scale up og scale out, hvilket en relationel platform på ingen måde kan.


Igen - som et supplement til et data warehouse ser jeg Big Data, som en god mulighed for at tilføre værdi og "...ekstra muligheder...", men forretningsværdien kommer vel ikke gennem Big Data platformenes evne til at skalere op/ud?

Det mest anvendte slutbrugerværktøj er stadigt Excel, selvom BI har gjort sit 20 år lange forsøg på at slå det ihjel med Business Objects, Cognos, Brio osv.


Gad vide om ambitionen virkelig var at slå Excel ihjel bare fordi, eller om det snarere var at lade slutbrugere tilgå data via semantiske modeller der på forretningens præmisser beskrev data, fremfor at tilgå data direkte via tabeller med overskrifter og svært gennemskuelige joins og tabelstrukturer? Og som endvidere understøtter behovet for sikkerhed og schedulering af rapporter, etc. Men hey - som værktøj til ad hoc rapportering er Excel glimrende - det er meget alsidigt - og glimrende til ad hoc analyser.

Slutbrugerværktøjer handler om visualisering og her bør nævnes Tableau, Kibana som glimrende værktøjer


Gad vide hvordan Finanstilsynet vil have det med at få afleveret Basel-rapporteringen som heat maps - interessant tanke! Og iøvrigt er jeg ikke enig - slutbrugerværktøjer handler ikke alene om værktøjer til visualisering - men snarere om at lade SLUTbrugere arbejde med data selv - om de vælger at visualisere data via grafer eller ej, er ikke definerende.

Vi kan takke Netflix, Google, Facebook, Elastic Search, Apache, Amazon m.fl. for det store udbud der i dag er af Open Source og frie værktøjer, der kan erstatte den portefølge af proprietær og MEGET dyr software, der får DWH/BI til at snurre rundt i diverse virksomheder.


Jeg er meget enig, og hilser værktøjerne velkommen - men mener også at det handler om at vælge det rigtige værktøj til at løse opgaven. Fordi man har en hammer, er alting jo ikke partout søm.

Nikolaj Brinch Jørgensen

Det vigtige er vel den organisation der skal adoptere værktøjet, og her er det vigtigt at klarlægge modenhed, inden man blindt råber "Big Data er det hotte - det må vi da ha' og gerne med noget agilt, open source ovenpå" - om ikke andet, hvis man ønsker at anvende data som en del af en konstruktiv udvikling.


Der hvor du har ret er at Big Data er evolution og ikke revolution. Hot eller ikke, er ligegyldigt. Open Source er ikke ligegyldigt - det er de fleste ved at forstå.
Agilt, ja det er der ikke meget i DWH/BI der er.

Igen - som et supplement til et data warehouse ser jeg Big Data, som en god mulighed for at tilføre værdi og "...ekstra muligheder...", men forretningsværdien kommer vel ikke gennem Big Data platformenes evne til at skalere op/ud?


Hvorfor skal Big Data supplere DWH? Hvorfor skal det ikke erstatte det eksisterende DWH? Man kan lave DWH med Big Data, og så få mere ud af det.
Muligvis snakker vi forbi hinanden, når vi definere begreberne. Men en eksisterende DWH løsning baseret på det du beskriver i teksten som relationel eller in-memory, kan med fordel erstattes af løsninger baseret på Big Data platformene komponenter.
Men igen skal kundens krav tages under overvejelse.

Efter i 12 år at have udviklet DWH/BI software, ved jeg hvad licenspriserne er på DWH/BI produkter. Det er derfor heller ikke svært at se en rimelig business case på at skrotte det hele, eller dele deraf hos kunderne.

Men det er klart, at har man en kommerciel interesse i traditionel DWH/BI, så er man nødt til at beskrive Big Data som et supplement, ellers vil man jo kannibalisere sit levebrød.

Gad vide om ambitionen virkelig var at slå Excel ihjel bare fordi, eller om det snarere var at lade slutbrugere tilgå data via semantiske modeller der på forretningens præmisser beskrev data, fremfor at tilgå data direkte via tabeller med overskrifter og svært gennemskuelige joins og tabelstrukturer? Og som endvidere understøtter behovet for sikkerhed og schedulering af rapporter, etc. Men hey - som værktøj til ad hoc rapportering er Excel glimrende - det er meget alsidigt - og glimrende til ad hoc analyser.


Ja - det var faktisk at få Excel ud (speciel Pivot Table), og erstattet.
Det er rigtigt at Universes (hvordan BO fik patent på dette er stadigt en gåde - men stakkels Brio) giver god værdi - for dem som forstå at benytte det. Men der skal heller ikke meget til før en slutbruger uden forstand får lagt en RDBMS ned (Star schemas og show flake schemas er umådeligt tunge).
Alle abstraktioner (specielt dem der arbejder med data) har det med at "lække", og så bliver det svært. SAS sælger stadigt kurser til "slutbrugere" i at benytte diverse PROCs til at lave rapporter i, fordi det nu engang kræver at man ved hvad data beskriver og hvordan de skal sættes sammen. Ellers har data ingen eller negativ værdi.
Og ja ambitionen var at slutbrugerne (dette er usandsynligt vagt begreb iøvrigt), selv skulle designe fine rapporter, og lave queries (dvs. udvælge data, for sammensætningen er beskrevet andetsteds i modellerne, ligesom i SQL views).

Gad vide hvordan Finanstilsynet vil have det med at få afleveret Basel-rapporteringen som heat maps - interessant tanke! Og iøvrigt er jeg ikke enig - slutbrugerværktøjer handler ikke alene om værktøjer til visualisering - men snarere om at lade SLUTbrugere arbejde med data selv - om de vælger at visualisere data via grafer eller ej, er ikke definerende.


Skal vi gætte på at de fleste Basel-III rapporter benytter et rapporterings værktøj til layout, men at data bliver tilrettelagt andetsteds?

Fordi man har en hammer, er alting jo ikke partout søm.


Kan du ikke forklare den?
Kommentaren virker malplaceret, i og med at det jo netop er dig der repræsentere en smal portefølje af kommercielle legacy BI vendors (bla. Business Objects), og på den måde kun har en eller to forskellige hamrer.

Brian Mühldorff

Hvorfor skal Big Data supplere DWH? Hvorfor skal det ikke erstatte det eksisterende DWH?


Når jeg taler Big Data i denne kontekst tænker jeg primært på indholdet (noget i stil med de 3 V'er) - og ikke så meget platformen (Hadoop, etc.). Data fra ERP systemer, etc. er traditionelt set strukturerede, og når jeg ser Big Data som et supplement, handler det om at berige/udvide/forfine det datagrundlag du allerede har fra dit ERP system og/eller øvrige forretningssystemer.

Men det er klart, at har man en kommerciel interesse i traditionel DWH/BI, så er man nødt til at beskrive Big Data som et supplement, ellers vil man jo kannibalisere sit levebrød.


Se min kommentar til ovenstående citat - licenspriser og tilgang til Big Data opfatter jeg som to separate diskussioner

Men igen skal kundens krav tages under overvejelse


Sådan er det vel i de fleste tilfælde? Ikke desto mindre er det en god ide at have en indsigt om parathed ved udrulning af en ny platform - både fra et teknisk og forretningsmæssigt perspektiv.

Men der skal heller ikke meget til før en slutbruger uden forstand får lagt en RDBMS ned (Star schemas og show flake schemas er umådeligt tunge).


Var ovenstående set i kontekst af et Univers, eller ved at slutbrugeren selv arbejder på databasen? Uden at skulle reklamere yderligere for produkter her i kommentarsporet, vil jeg mene det er muligt at designe universet således at de værste ulykker kan forhindres - alternativt skal der bare uddannelse til :)

Skal vi gætte på at de fleste Basel-III rapporter benytter et rapporterings værktøj til layout, men at data bliver tilrettelagt andetsteds?


Det kan vi faktisk blive enige om - my bad.

Kan du ikke forklare den?
Kommentaren virker malplaceret, i og med at det jo netop er dig der repræsentere en smal portefølje af kommercielle legacy BI vendors (bla. Business Objects), og på den måde kun har en eller to forskellige hamrer.


Jeg burde nok have en disclaimer i stil med "...indhold på bloggen er et udtryk for egne holdninger, ikke det firma jeg arbejdet for, etc...". Tilfældet vil dog at indholdet på bloggen er et udtryk for egne holdninger og erfaringer, og når jeg bruger hammer-analogien handler det jo netop om, at jeg er åben for at kombinere teknologierne - at bruge det værktøj som passer til opgaven - ikke som et kompromis, men som en hybrid/et supplement, snarere end at have travlt med at afskrive den ene eller anden teknologi/paradigme som forældet/langsom/tung, etc.

Log ind eller Opret konto for at kommentere