Københavns nye datamarkedsplads, City Data Exchange, som på sigt skal indeholde alskens data om bl.a. borgere, miljø, bygninger og trafik, bliver i løbet af efteråret forsynet med avanceret analytics-software, som skal sikre, at datakunderne kan skabe mening ud af de mange forskellige typer data.
Det fortæller Run Manager Renny Ulka, Hitachi Consulting, som står bag udviklingen af den digitale markedsplads.
»I forhold til den tekniske del af projektet bliver noget af det mest spændende, når vi går i gang med at spænde et analytics-workspace over data, så man bedre kan kombinere dem,« siger han.
Den analytics-software, som anvendes, er Hitachis eget og kommer fra datterselskabet Pentaho.
I dag optræder data i databasen ret ustruktureret. Men den nye teknologi vil betyde, at man i højere grad kan relatere data til hinanden, f.eks. adresser med længde- og breddegrader. Samtidig tilbyder Pentaho-værktøjet et flot visuel formidling, siger han.
Kun fem kilder leverer data - forløbig
City Data Exchange, som netop er lanceret, samler og stiller offentlige og private data fra byer til rådighed, hvilket giver mulighed for at kombinere data i nye eller eksisterende digitale tjenester.
Parterne bag er Københavns Kommune, Region Hovedstaden, CLEAN, Realdania og den japanske teknologi-gigant Hitachiog og de mener, det vil skabe et helt nyt grundlag for udvikling af forretningsmuligheder og innovative løsninger, der imødekommer Københavns og Region Hovedstadens udfordringer.
Tanken med City Data Exchange er altså at tilbyde viden til borgere og virksomheder om brugen af transport, grønne områder, trafikmønstre, luftforurening m.m.
Foreløbig har platformen ikke snablen nede i voldsomt mange datakilder, kun fem, herunder åbne offentlige data fra kommunen og virksomhedsdata fra virk.dk. Men Hitachi har indgået en kontrakt med de offentlige parter om at skulle i marken og skaffe flere.
»Vi har folk ude og snakke med virksomheder, for jo flere kilder der kommer på, jo bedre. Markedspladsen skal være en one stop-shop, hvor man tilgå en masse data, der relaterer til livet i byen,« siger Renny Ulka.
Helt praktisk kan brugeren via en mobil-app f.eks. søge efter ledige P-pladser for hurtigere at finde en plads og dermed spare på energien.
Data fra kilderne høstes ved at uploade en CSV-fil eller ved direkte dataoverførsel via åbne snitflader, API’er i formatet JSON (JavaScript Object Notation), som er et letvægtsformat til dataudveksling. Fordelen ved det format er, at mennesker let kan læse og skrive JSON, mens maskiner samtidig let kan analysere og generere JSON. Der er dog overvejelser omkring, hvilke yderligere filformater der ønskes understøttet fremadrettet.
Projektet arbejder ikke som hos datafordeleren i staten med faste datamodelleringsregler. Tanken er her, at det skal indeholde alle mulige forskellige data.
»Men vi forventer, at kreative sjæle kan skabe mening ud af data. Og det vil vores analytics-lag understøtte,« siger han.
Projektet er sat op på Microsofts cloud-løsning, Azure, men man har dog valgt den gratis og open source-baserede cross-platform-database MongoDB.
Den er klassificeret som en NoSQL-database og undgår dermed traditionel tabel-baseret relationel databasestruktur til fordel for JSON -lignende dokumenter med dynamiske skemaer, hvilket gør det muligt at understøtte forskellige dataformater.
Der findes p.t. en del portaler, der udstiller offentlige data, hvilket samtidig betyder, at man gør sig nogle overvejelser om dobbelt opbevaring af de samme data.
»Vi overvejer, om vi skal deduplikere data. Altså, hvordan vi på en effektiv måde sikrer, at de samme data ikke ligger for mange forskellige steder,« siger han.
Systemet har altså ikke en indbygget datavask:
»Konceptet i det er, at man som data-publisher uploader et udsnit af sine data med en CSV-fil. Og så går vi ind og verificerer data, om det virker, som de er på et fornuftigt niveau – f.eks. at der ikke er tale om personfølsomme data.«
Taxa ved populære restauranter
For at understøtte datasikkerhed og privacy hostes data i et datacenter i EU og data være anonymiseret.
»Det må ikke være sådan, at data kan henføres til en bestemt borger eller en bestemt lejlighed,”« siger Renny Ulka.
Renny Ulka er uddannet datalog og finder bred anvendelse af data meget spændende:
»Jeg er helt personligt meget motiverende, at vi udvikler et system med data, der kan hjælpe borgerne til at tage beslutninger omkring byen, der kan gøre den bedre at leve i,« siger Renny Ulka
Han nævner som eksempler, at datamarkedspladsen kan tænkes at blive brugt til tjenester, der sikrer taxaer ved de mest populære restauranter. Eller viser, hvilke indretninger af byen der er mest populære blandt borgerne. Og hvordan trafikflowet igennem byen er så man kan mindske forurening.
Hitachi har indgået en aftale med de to offentlige parter om, at man udvikler og driver tjenesten de næste fem år.