Elendig datakvalitet hæmmer udbredelsen af Big Data

Masser af data lider under så dårlig kvalitet at de ikke kan anvendes i Big Data-løsninger. Men hjælpen er på vej - bl.a. fra intelligent software.

Big data er at 'parre' strukturerede data fra virksomheder og organisationers egne databaser med ustrukturerede data fra offentlige kilder som f.eks. kan være vejrdata, trafikdata eller data fra sociale medier.

På den måde kan man måske få helt ny indsigt i, hvorfor kunderne f.eks. køber mere piskefløde eller VVS-reservedele på bestemte tidspunkter af året, eller når vejret arter sig på en særlig måde. Eller man kan opdage nye markeder. Eller øge kvaliteten i sundhedsvæsnet, fordi man kan afsløre sjusket behandling, som Version2 har beskrevet.

Læs også: Big Sundhedsdata kan afsløre din læges fumlerier

Men ifølge en række it-chefer er det et stort problem, at få data, der kan sparkes ind i disse analytics platforme. Problemet er forskellige dataformater og kvaliteter, som gør at ens data ikke bare lige kan anvendes:

»Vores største problem med it er, hvordan får vi data ind i systemerne. Det er virkelig krævende,« siger en it-chef til mediet på CIO-konference i Orlando for nylig til mediet ZDNet.com.

Udsagnet bakkes op af en undersøgelse, som er gennemført af dataintegrationsspecialist Xplenty.

Den viser, at hver tredje business intelligence-specialist tilbringer mellem 50 og 90 procent af arbejdsdagen på at rydde op i rådata og sikre, at Big Data-værktøjer kan få adgang til de nødvendige data.

Det afspejler sig også i et svar, hvor kun 28 procent af virksomhederne svarer, at de genererer strategisk værdi fra deres data.

At der er problemer med datasortering ses også ved, at sortering og analysering af data er blandt de de mest efterspurgte kompetencer inden for it-området pt.

Der er tre mulige løsninger på problemet:

  • Data analytics-software bliver bedre. Mange virksomheder har investeret kraftigt i Big Data de seneste fem år. Der kommer næppe egentlige gennembrud i værktøjernes performance, men gradvise forbedringer vil vi se.

  • 'Data prepares' blive den næste hotte it-disciplin. Lige som juridiske assistenter hjælpe advokater ved at forberede en del sager, vil tekniske dataassistenter ifølge ZDNet i fremtiden kunne gøre meget af det indledende arbejde, inden it-specialisterne etablerer Big Data-løsningerne.

  • Intelligent software vil hjælpe med at oprense data. Softwareløsninger og 'selvtænkende' algoritmer vil efterhånden kunne rydde op, sortere og kategorisere data.
    Microsoft, IBM, og Amazon er tre selskaber som investerer meget både i automatiseret datavask men også i mennesker, som kan stå for det, som software ikke kan.

Hvor det kniber med at håndtere data, er situationen helt anderledes end for få år siden, når det gælder Big Data-værktøjer. Her var problemet mangel på værktøjer - og man stort set var henvist til open source-værktøjerne R og Hadoop.

I dag kappes et utal af virksomheder med at analysere og visualisere resultater i Big Data-løsninger - fra specialløsninger som Tableau, QlikTech, TIBCO og MicroStrategy til end-to-end løsninger fra Microsoft, IBM, SAP og Oracle.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere