Store datavaskedag i Eniro: Sådan holder vi styr på Jens Hansens telefon og adresse

Er Jens Hansen flyttet, har Jens Hansen fået nyt telefonnummer - eller er det en anden Jens Hansen? Hos Eniro er de mestre i disciplinen datavask.

Hvis du har brug for at finde telefonnummeret på Jens Hansen i Viborg, er sandsynligheden for, at du enten taster krak.dk, degulesider.dk eller eniro.dk i din browser, ret høj.

Få splitsekunder senere præsenteres du for en lang række Jens Hansener i Viborg og omegn, med adresser, telefonnumre - og i visse tilfælde endda også billede og link til facebook-profil.

Men før resultaterne kan vises, har søgningen været en tur igennem Eniros Oracle-database på 315 gigabyte, der rent fysisk er placeret i Norge.

Og før det er alle data blevet "vasket" godt og grundigt.

»Vi får data ind fra flere forskellige kilder, og der vil altid være fejl eller uoverensstemmelser mellem dem. For eksempel vasker vi alle virksomhedsdata, vi får ind fra 118 op mod det offentliges CVR-database,« forklarer Pia Dahlen, der er teamleder i Eniros content quality-afdeling, til Version2.

Når en data skal samkøres fra op til fire forskellige kilder til én datapost, er det naturligvis nødvendigt med skrappe og veldefinerede regler for, hvilke kilder Eniro stoler mest på i en given sammenhæng.

Er det for eksempel brugerinput, den offentlige CVR-database eller teleselskabernes 118-oplysninger, der bestemmer, hvad hovednummeret til tømrermester Petersen skal være?

»Vores primære kilde er oftest data fra teleselskaberne, mens CVR-registret er et godt stykke nede på listen. Det fedeste havde været, hvis CVR altid havde den rigtige adresse og det rigtige nummer, men myndighederne gør ikke noget aktivt for at kvalitetssikre dataene i CVR-databasen,« fortsætter Pia Dahlen.

For hver datapost, der på Eniro'sk hedder en ECO part, er der således et unikt regelsæt, hvor hver kilde er prioriteret i forhold til de øvrige, og hvor hver ændring af en oplysning har en bestemt anciennitet og levetid.

»Vi har nu i et par år givet brugerne mulighed for selv at rette eller tilføje oplysninger om dem selv. Ved at validere brugerinputtet med en sms til deres mobiltelefon har vi mulighed for at lade rettelserne slå igennem i databasen med det samme, uden at der skal en medarbejder ind over. Det har flere end 150.000 danskere benyttet sig af. En manuel rettelse fra brugeren har en vis løbetid afhængig af, hvilken type oplysning der er tale om, og når den tid er gået, vil data fra for eksempel teleselskaberne igen have førsteprioritet,« siger Ditte Borum, der er content quality assistant i Eniro, til Version2.

Frej Lehhmann Nielsen, Pia Dahlen og Ditte Borum er nogle af Eniros garanter for, at du kan stole på resultatet, når du har søgt oplysninger på krak.dk, degulesider.dk eller eniro.dk Illustration: Morten K. Thomsen

I alt otte medarbejdere sidder i Eniros "datavaskeri", og dertil kommer god hjælp fra udviklingsafdelingen, når større, nytilgåede datasæt skal vaskes.

Databasen indeholder i øjeblikket omkring 6,5 millioner telefonnumre, som er knyttet op på fem millioner personer samt godt en halv million taletidskort. Den overskydende million må tilskrives forældede data, eller at nogle mennesker har mere end en telefon.

Så komplicerede er reglerne

»Det kan være ret svært at gennemskue, om to dataposter i virkeligheden er den samme person. Men vi vasker dataene så godt, som vi kan med vores regelsæt. Hvis to kilder refererer til samme telefonnummer og navn, men forskellig adresse, så går vi ud fra, at personen er flyttet og bruger den seneste adresseoplysning,« siger Frej Lehhmann Nielsen, der er data analytiker i content delivery-afdelingen, til Version2.

Han fortsætter med at opremse forskellige scenarier, hvor forskellige kilder er uenige om et datafelt.

»Hvis navn og adresse matcher, men telefonnummeret i nye data er forskelligt, gør vi typisk det, at vi tilføjer nummeret til den eksisterende datapost. Og hvis efternavnet skifter, men alt andet passer, er det jo nok typisk fordi, vedkommende er blevet gift. Til gengæld laver vi dog ikke et automatisk match, hvis fornavnene er forskellige, for det er relativt ualmindeligt, at folk skifter fornavn,« fortæller Frej Lehmann Nielsen videre.

Som et kuriosum fortæller han om dengang, en medarbejder undrede sig over, at en privatperson var registreret med over 600 telefonnumre. Dataene så dog umiddelbart gode nok ud, så sagen blev sendt tilbage til teleselskabet, der bekræftede, at dette skam var rigtigt nok. Til gengæld gik der så ikke længe, før manden blev afsløret som svindler på diverse pokersites, hvor man som ny spiller kunne få en gratis velkomstbonus, hvis man registrerede sig med telefonnummer.

Denne artikel er en del af Version2's sommertour, hvor vi flytter redaktionen ud til en stribe danske it-firmaer. Se hele tour-kalenderen

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (13)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Kristian Poulsen

Dengang hvor De Gule Sider hørte under TDC, brillierede TDC med at udlevere paragraf 34 data til Krak, hvor indholdet i navnefeltet var sorteret alfabetisk. Dermed blev mit navn (Kristian M. H. Poulsen) nu til H. Kristian M. Poulsen.
Den manøvre krævede også lige nogle ekstra linjers kode i datavasken.

Iøvrigt ville det jo være meget nemmere hvis paragraf 34 data inkluderede CPR nummeret, så ville der jo være een fælles nøgle og dermed nemmere at flette data sammen.
Det kræver jo 'bare' at vi accepterer at CPR nummeret blot skal være en identifikator, men det er jo en helt anden diskussion.

  • 3
  • 1
Søren Rønsberg

En manuel rettelse fra brugeren har en vis løbetid afhængig af, hvilken type oplysning der er tale om, og når den tid er gået, vil data fra for eksempel teleselskaberne igen have førsteprioritet,

Den funktion betyder at jeg jævnligt skal slette diverse numre som ikke er beregnet til offentligørelse; f.eks.: ungernes mobiler, diverse datalinier.
Jeg opdager først at de er dukket op igen når et af børnene får mærkelige opkald.

Der er også et nummer som jeg ikke har haft i over 10 år som hjemsøger mig, og hvor jeg ikke finde ud af hvad teleselskabet hedder nu, så det kan blive slettet.

Lav dog funktionen sådan at når et nummer er skjult af brugeren, så forbliver det skjult til det får en ny bruger.

Det er trods alt brugeren som bør bestemme hvilke numre der ønskes opkald fra fremmede på.

  • 2
  • 0
Jan Ulrich Jensen

"Hos Eniro er de mestre i disciplinen datavask."

Kræver det ikke normalt, at man er nummer ét for at være mester? Eniro har desværre fra starten båret præg af ikke at kende ret meget til danske forhold.

  • 0
  • 1
Thomas Kjeldsen

På både dgs.dk og krak.dk er der et "Hovsa" link ud for resultater. Jeg antager at det er tiltænkt brugerinput. På begge sider sker der dog ikke andet end at man får vist en lille kasse med teksten "Hovsa! An unexpected error occurred". Sådan har det været i lang tid. Så jeg gad nok vide hvordan de samler brugerinput.

Jeg ville iøvrigt hellere være foruden disse "tjenester". De er altid langt bagefter de primære kilder. Som alm bruger har jeg fx ingen mulighed for at bede dem om at opdatere data fra teleselskaber, cpr.dk, cvr.dk o.l. Resultatet er desværre at disse "tjenester" oplyser forældede data i månedsvis.

  • 2
  • 0
Kristoffer Apollo

@Søren: Du har fat i en god pointe der, og levetiden af de forskellige informationer er da også noget af det, vi løbende skruer på i forsøget på at opnå den bedst mulige datavask. Problemet er bare, at hvis vi sætter informationer fra brugerne til altid at "vinde" over andre data, er vi også afhængige af, at brugerne husker at opdatere hos os, når de skifter telefon eller adresse - og det er desværre langtfra altid tilfældet.

Med hensyn til dine børns mobiler og andre numre, du gerne vil have holdt helt ude, er det bedste råd at få sat de numre som hemmelige hos teleselskabet. Så får vi en sletning fra dem, og du sikrer, at de ikke dukker op igen på Krak, De Gule Sider eller andre steder, der henter data fra teleselskaberne.

Omkring det gamle nummer, der hjemsøger dig, kan vi sandsynligvis hjælpe dig, da vi kan se, hvilke teleselskaber de forskellige numre kommer fra. Send en mail til eniro@eniro.dk med detaljerne, så kigger vi på det.

Mvh.
Kristoffer Apollo
Eniro Danmark

  • 2
  • 0
Kristoffer Apollo

@Thomas: Du har ret, Hovsa-funktionen er lige præcis til brugerinput om forkerte data. Desværre er funktionen pt. ustabil, hvilket vi er opmærksomme på og arbejder på at udbedre. Den virkede, da jeg tjekkede for få minutter siden, men der er altså noget i det set-up, der driller.

Med hensyn til opdatering fra kilderne kan jeg fortælle, at Eniros tjenester indlæser opdateringer fra CVR og teleselskaberne dagligt. Vi er ikke ufejlbarlige, men hvis du oplever, at data er forældede i månedsvis, skyldes det med meget stor sandsynlighed, at de data heller ikke er opdateret hos primærkilderne. En klassisk problemstilling er eksempelvis, at en ophørt virksomhed kan blive stående som aktiv hos CVR i flere måneder, fordi der går tid, fra man indgiver konkursbegæring eller lignende, og til selskabet formelt ophører.

Mvh.
Kristoffer Apollo
Eniro Danmark

  • 2
  • 0
Søren Rønsberg

Problemet er bare, at hvis vi sætter informationer fra brugerne til altid at "vinde" over andre data, er vi også afhængige af, at brugerne husker at opdatere hos os, når de skifter telefon eller adresse - og det er desværre langtfra altid tilfældet.


Netop derfor foreslog jeg også at det skulle have virkning indtil brugeren ændres. Selv om jeg skulle flytte vil det ikke betyde at hidtidige ikke offentlige numre lige pludselig skal være det.

Med hensyn til dine børns mobiler og andre numre, du gerne vil have holdt helt ude, er det bedste råd at få sat de numre som hemmelige hos teleselskabet. Så får vi en sletning fra dem, og du sikrer, at de ikke dukker op igen på Krak, De Gule Sider eller andre steder, der henter data fra teleselskaberne.


Det har har jeg forsøgt, men den markering har det med at forsvinde, f.eks. ved køb af en ny mobil til samme nummer, selv om det er i samme selskab.

I gør hverken jeres brugere eller de registrerede en tjeneste ved at dirigere opkald de gale steder hen.

  • 0
  • 1
Kristoffer Apollo

I det eksempel, du nævner, er jeg bange for, at problemet opstår hos teleselskabet, som tilsyneladende ikke har bevaret din status som hemmeligt nummer, da du købte en ny telefon. For hvis nummeret var forblevet hemmeligt, ville vi aldrig have fået det indlæst igen.

Vi ønsker selvfølgelig ikke andet end at præsentere korrekte data på vores tjenester, men som mine kollegaer også fortæller i artiklen herover, bliver det komplekst, fordi vi arbejder med flere kilder, og ingen af dem har den fulde, permanente sandhed i 100% af tilfældene. Vi har også set fejl, der går den modsatte vej af dit eksempel - hvor en information fra en bruger kommer til at blokere for en ellers korrekt opdatering fra teleselskabet.

Mvh.
Kristoffer Apollo
Eniro Danmark

  • 2
  • 0
Søren Rønsberg
  • 0
  • 2
Kristoffer Apollo

@Søren: Jeg kan sagtens se din pointe, men det er en anelse mere komplekst end som så. Når du gør dit nummer hemmeligt, er det ikke sådan, at vi får en besked fra teleselskabet, hvor der står "Søren har tlf. 77 77 77 77, og det er hemmeligt" - for de må jo netop ikke sende os nummeret, når det er hemmeligt. I stedet får vi en slettemeddelelse fra teleselskabet, hvor vi på vores side ikke kan se, om den er udløst af hemmeligt nummer, eller om nummeret bare er blevet nedlagt.

Tilsvarende, hvis du kontakter os direkte og fortæller, at dit nummer er hemmeligt: I de tilfælde går vi ind og sletter nummeret fra vores base, for vi må ikke uden videre lave en registrering af hemmelige telefonnumre. Og hvis teleselskabet så ved en fejl kommer til at sende os nummeret igen, vil vi få det ind som et nyoprettet telefonnummer. Det er formentlig det, du har oplevet.

Jeg vil ikke afvise, at det evt. kunne lade sig gøre at lave et set-up som det, du foreslår. Men så skulle vi nok en tur omkring Datatilsynet for at høre, om vi må lave et register over hemmelige telefonnumre, og ikke mindst hvilke dokumentationskrav der ville være i den forbindelse.

Denne type problemstillinger er noget, vi løbende arbejder på at tackle bedst muligt - da vi også fint kunne undvære at skulle bruge ressourcer på at korrigere hemmelige numre og så videre. Men der er både juridiske og praktiske rammer, som vi i sagens natur er nødt til at arbejde indenfor.

  • 0
  • 0
Log ind eller Opret konto for at kommentere