Københavns nye datamarkedsplads, City Data Exchange, som på sigt skal indeholde alskens data om bl.a. borgere, miljø, bygninger og trafik, bliver i løbet af efteråret forsynet med avanceret analytics-software, som skal sikre, at datakunderne kan skabe mening ud af de mange forskellige typer data.
Det fortæller Run Manager Renny Ulka, Hitachi Consulting, som står bag udviklingen af den digitale markedsplads.
»I forhold til den tekniske del af projektet bliver noget af det mest spændende, når vi går i gang med at spænde et analytics-workspace over data, så man bedre kan kombinere dem,« siger han.
Den analytics-software, som anvendes, er Hitachis eget og kommer fra datterselskabet Pentaho.
City Data Exchange, som bliver udviklet af den japanske teknologivirksomhed Hitachi, er en markedsplads for offentlig og privat data, hvor det er muligt at købe og sælge data samt downloade gratis datasæt. Ideen er at gøre data lettere tilgængeligt, give virksomheder mulighed for at sælge deres data på en sikker måde, efterspørge data samt finde nye samarbejdspartnere ved at samle dataudbydere og dataforbrugere. Hitachi har siden april 2015 udviklet City Data Exchange og to apps i et tæt samarbejde med Region Hovedstaden, Københavns Kommune og CLEAN. Datamarkedspladsen blev lanceret medio maj.City Data Exchange
I dag optræder data i databasen ret ustruktureret. Men den nye teknologi vil betyde, at man i højere grad kan relatere data til hinanden, f.eks. adresser med længde- og breddegrader. Samtidig tilbyder Pentaho-værktøjet et flot visuel formidling, siger han.
Kun fem kilder leverer data - forløbig
City Data Exchange, som netop er lanceret, samler og stiller offentlige og private data fra byer til rådighed, hvilket giver mulighed for at kombinere data i nye eller eksisterende digitale tjenester.
Parterne bag er Københavns Kommune, Region Hovedstaden, CLEAN, Realdania og den japanske teknologi-gigant Hitachiog og de mener, det vil skabe et helt nyt grundlag for udvikling af forretningsmuligheder og innovative løsninger, der imødekommer Københavns og Region Hovedstadens udfordringer.
Tanken med City Data Exchange er altså at tilbyde viden til borgere og virksomheder om brugen af transport, grønne områder, trafikmønstre, luftforurening m.m.
Foreløbig har platformen ikke snablen nede i voldsomt mange datakilder, kun fem, herunder åbne offentlige data fra kommunen og virksomhedsdata fra virk.dk. Men Hitachi har indgået en kontrakt med de offentlige parter om at skulle i marken og skaffe flere.
»Vi har folk ude og snakke med virksomheder, for jo flere kilder der kommer på, jo bedre. Markedspladsen skal være en one stop-shop, hvor man tilgå en masse data, der relaterer til livet i byen,« siger Renny Ulka.
Helt praktisk kan brugeren via en mobil-app f.eks. søge efter ledige P-pladser for hurtigere at finde en plads og dermed spare på energien.
Data fra kilderne høstes ved at uploade en CSV-fil eller ved direkte dataoverførsel via åbne snitflader, API’er i formatet JSON (JavaScript Object Notation), som er et letvægtsformat til dataudveksling. Fordelen ved det format er, at mennesker let kan læse og skrive JSON, mens maskiner samtidig let kan analysere og generere JSON. Der er dog overvejelser omkring, hvilke yderligere filformater der ønskes understøttet fremadrettet.
Projektet arbejder ikke som hos datafordeleren i staten med faste datamodelleringsregler. Tanken er her, at det skal indeholde alle mulige forskellige data.
»Men vi forventer, at kreative sjæle kan skabe mening ud af data. Og det vil vores analytics-lag understøtte,« siger han.
Projektet er sat op på Microsofts cloud-løsning, Azure, men man har dog valgt den gratis og open source-baserede cross-platform-database MongoDB.
Den er klassificeret som en NoSQL-database og undgår dermed traditionel tabel-baseret relationel databasestruktur til fordel for JSON -lignende dokumenter med dynamiske skemaer, hvilket gør det muligt at understøtte forskellige dataformater.
Der findes p.t. en del portaler, der udstiller offentlige data, hvilket samtidig betyder, at man gør sig nogle overvejelser om dobbelt opbevaring af de samme data.
»Vi overvejer, om vi skal deduplikere data. Altså, hvordan vi på en effektiv måde sikrer, at de samme data ikke ligger for mange forskellige steder,« siger han.
Systemet har altså ikke en indbygget datavask:
»Konceptet i det er, at man som data-publisher uploader et udsnit af sine data med en CSV-fil. Og så går vi ind og verificerer data, om det virker, som de er på et fornuftigt niveau – f.eks. at der ikke er tale om personfølsomme data.«
Taxa ved populære restauranter
For at understøtte datasikkerhed og privacy hostes data i et datacenter i EU og data være anonymiseret.
»Det må ikke være sådan, at data kan henføres til en bestemt borger eller en bestemt lejlighed,”« siger Renny Ulka.
Renny Ulka er uddannet datalog og finder bred anvendelse af data meget spændende:
»Jeg er helt personligt meget motiverende, at vi udvikler et system med data, der kan hjælpe borgerne til at tage beslutninger omkring byen, der kan gøre den bedre at leve i,« siger Renny Ulka
Han nævner som eksempler, at datamarkedspladsen kan tænkes at blive brugt til tjenester, der sikrer taxaer ved de mest populære restauranter. Eller viser, hvilke indretninger af byen der er mest populære blandt borgerne. Og hvordan trafikflowet igennem byen er så man kan mindske forurening.
Hitachi har indgået en aftale med de to offentlige parter om, at man udvikler og driver tjenesten de næste fem år.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.