Analyse af store datamængder

Igen i år er NoSQL en af de store trends på GOTO. NoSQL og store datamængder er blevet en del af min hverdag, så jeg følte næsten at tracket "Big Data Analytics" var skræddersyet til mig.

Først gik Nathan Marz fra Twitter på scenen og fortalte om Lambda-arkitekturen. Lambda-arkitekturen er et mønster for hvordan man kan håndtere store datamængder i et distribueret system som både skal være semi-available og semi-konsistente, hvor man deler datamængden op i de fleste data og de nye data. Ved at behandle den største del af datamængden på en måde og de nyeste data på en anden kan man få en rimelig tilnærmelse på både available og konsistente data.

Mit favoritcitat (selv om jeg er ambivalent om budskabet):
"The relational database will be a footnote in history. Not because of SQL restrictive schemas... but because of fundamental flaws about how relational databases work."

Nathan var ikke bare en interessant, god taler, men samtidig havde han rigtig godt styr på budskabet og jeg tror måske jeg skal kigge nærmere på hans bog om emnet.

Derefter var det Roberto V. Zicaris tur til at fortælle lidt om udfordringer og muligheder i analyse af store datamængder. Det blev dog mest ved udfordringerne, da han ikke rigtig havde nok tid til at nå til mulighederne. Det er også store datamængder vi snakker om. Som han nævnte "Every day 2,5 quintillion bytes of data are created" og det er bare 7 TB på Twitter.

Der blev både talt om den økonomiske og den teknologiske side af sagen og nævnt at en begrænsning på udviklingen kunne være at få nok kompetente folk, som kan arbejde med begreberne. I gamle dage kendte vi de spørgsmål vi ville stille, men nu er vi nød til at gemme flere data for at kunne stille nye spørgsmål i fremtiden.

Det bliver interessant at se hvor udviklingen bærer os hen.

Kommentarer (0)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Log ind eller Opret konto for at kommentere