Google vil gøre det nemmere at arbejde med persondata i Python, som ofte benyttes til big data, machine learning, dataanalyse og andre områder.
Det sker med et nyt open source-værktøj med navnet Pipelinedp, som skal gøre det muligt at skabe såkaldte pipelines, der behandler data med personfølsomme oplysninger. Det skriver Infoworld.
Værktøjet gør det muligt for datafolk at visualisere og indstille parametre, der anvendes til at producere såkaldt 'differential privacy', hvor personernes identitet anonymiseres.
Pipelinedp er stadig i en eksperimentel fase. Udviklere, forskere og virksomheder kan bruge det nye Python-bibliotek til at bygge applikationer med privacy-teknologi, der gør det muligtat få indsigt og observere tendenser i et datasæt, samtidig med at den enkeltes privatliv beskyttes, siger Google.
PipelineDP kan bruges sammen med frameworks som Apache Spark og Apache Beam til databehandling. Det kan eksempelvis bruges til at vise et websites mest besøgte sider pr. land på en aggregeret og anonymiseret facon.
Forskere fra Google har også offentliggjort en forskningsartikel, der viser teknikker, som kan skalere differentiel fortrolighed til datasæt på en petabyte eller mere.

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.
Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.
Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.
Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.