Er der innovation i Big Data?
Det er ingen hemmelighed, at de fleste organisationer ligger inde med utrolig meget data. Det gør dog ikke den store forskel, med mindre man forstår at omforme data til informationer, og det skal naturligvis være informationer, der kan sikre organisationen en konkurrencefordel.
Det er gamle nyheder. Sådan har det altid været. Derfor har organisationer af enhver størrelse struktureret data i databaser. Men hvad med alle de andre data, der kommer igennem systemet? Data, der ikke er lagret pænt i systemer - det er her Big Data kommer ind i billedet. Det handler netop om at analysere sig frem til brugbare informationer ud af kaos. Det er ikke så let endda, men det er nyt, nyttigt og innovativt.
Big Data omgiver os. Der er tale om enorme mængder af data - hundrede terabytes, endda mange petabytes, som normalt er ustrukturerede og består af datasæt, som kan være relateret til hinanden, såsom bits fra en række forskellige uafhængige streams: sociale medier, CRM, undersøgelser, demografi og så videre. Et centralt aspekt ved Big Data-analyser er hastigheden, som ofte er i real-time. Dette kræver ekstremt hurtige og komplekse analyser, som kan forbedre alt fra spil til nationens sikkerhed.
En bred vifte af virksomheder og organisationer søger at udvinde værdi fra bjerge af strukturerede og ustruktureret data. Retailere forsøger at forudsige tendenser, indkøbsmønstre og den enkelte forbrugers smag. Web 2.0 virksomheder bruger Big Data til at matche potentielle købere med målrettet markedsføring, mens sikkerhedstjenester analyserer Big Data for at styrke nationens sikkerhed.
En rød tråd i disse cases er behovet for ekstremt skalerbare miljøer, der kan lagre og analysere store og stadigt voksende mængder af data. Disse miljøer skal kunne håndtere et bredt spektrum af datatyper og datastrukturer og behandle data lynhurtigt.
Det er i den ideelle verden. I virkeligheden befinder mange organisationer sig ude af stand til at kunne hente værdifuld indsigt fra deres data. De er holdt tilbage af stive data management systemer, der ikke kan rumme de store datamængder og forskellige datatyper, der karakteriserer Big Data.
Mange organisationer spørger sig selv: "Hvordan kan vi mere effektivt lagre, bearbejde, analysere og i sidste ende kapatilisere på Big Data”?
En mulighed er at forbedre status quo – nemlig de systemer, der allerede er på plads. Problemet med den tilgang er dog, at de klassiske RDBMS-platforme ikke blev designet til at håndtere nutidens stormløb af strukturerede og ustrukturerede data og meget forskellige datatyper.
En anden mulighed omfatter Enterprise Data Warehouses (EDWs) med massive parallel processing kapaciteter. Udfordringen her kan nemt vise sig at være dyr i form af leverandør lock in - dyre software licenser og kode, der styres af leverandører.
Derfor søger mange organisationer en tredje mulighed: en Open Source Analytics platform bygget op fra grunden.
Her kommer Apache & Hadoop fx ind i billedet. Hadoop gør organisationer i stand til at indlæse og konsolidere data fra forskellige kilder i et yderst skalerbart distribueret filsystem til dataopbevaring. Disse data kan derefter behandles af en eller flere servere og dermed datamine struktureret og ustruktureret data.
Under alle omstændigheder gælder det om at løbe hurtigt. De virksomheder, der forstår at innovere deres forretning på baggrund af Big Data, vil have et forspring.
Benjamin er Enterprise Portfolio Manager hos Dell og er vidensressource ift. Dells enterprise portefølje, samt har fokus på trends i markedet og kundernes aktuelle udfordringer. Han blogger om hvordan den it-professionelle kan fokusere på innovation og strategi.
Follow @BENCatWorkKommentarer (3)
Der er selvfølgelig InfoSphere fra IBM, se mere her http://www-01.ibm.com/software/data/infosphere/bigdata-analytics.html
Mh
Anders - IBM
Du bør også kaste et blik på Splunk splunk.com. Splunk opsamler generiske data så som logfiler, konfigurationsfiler, scripted input og meget mere og kan scalere til rigtig store datamængder (der er flere, der indlæser mere end 10Tb om dagen!). Splunk benyttes til log management, realtid- og historisk analyse, datamining, trendanalyse og meget mere.
Du kan downloade en gratis trial og Splunk kan benyttes gratis til indlæsning af op til 500Mb data/døgn.
Kontakt mig, hvis du vil vide mere!
Mvh
Karsten

