Hej BI-folk

Jeg har for et par måneder siden startet et Open Source projekt kaldet DataCleaner, som kort fortalt er et værktøj til datakvalitet. Ideen fik jeg dels via mit tidligere arbejde hos SAS, dels ved at læse Version2's gode artikler om datakvalitet i november 2007 (http://www.version2.dk/artikel...5304).

Nu er dette jo et forum hvor der sikkert er mange dygtige BI-folk og jeg vil derfor benytte lejligheden til at indbyde interesserede til at deltage i udviklingen af DataCleaner. Det er programmeret efter alle bogens regler (dem jeg kender til i hvert fald) og har en nydelig komponentbaseret struktur etc etc...

Hvis der er nogen der tager produktet (som dog stadig er i alpha-beta agtig tilstand) i brug vil jeg meget gerne høre om erfaringer og ideer til forbedringer! Vi kan bruge hjælp til både selve udviklingen, men også dokumentation, test, "markedsføring" og alt muligt andet - og dørene er åbne (lissom kildekoden ;)).

Læs mere her: www.eobjects.dk/datacleaner

Kasper Sørensen

Tak, tror jeg :) Klytkode tør jeg dog ikke gætte på hvad betyder? ;)
Må man spørge hvilket firma du kommer fra, som har med DQ at gøre?

  • 0
  • 0
Kasper Sørensen

Jeres firma ser interessant ud. Jeg kan se I har jeres egne produkter så DataCleaner har måske slet ikke interesse for jer, men hvis det har interesse er projektet lavet således (design- og licensmæssigt) at firmaer med fordel kan integrere og udnytte teknologien på en række fordelagtige måder, dels som internt komponent, dels som færdigt værktøj.

I så fald håber vi bare at firmaer vil give deres bidrag til koden tilbage til DataCleaner og på den måder hjælper med til at "gøde markedet" for et godt datakvalitet framework.

  • 0
  • 0
Henrik Liliendahl Sørensen

Hej Kasper. Du kan måske opfatte min interesse som ”lusket” fordi jeg repræsenterer en virksomhed som sælger closed source software til forbedring af datakvalitet.

Men jeg har også selv i tidernes morgen startet et projekt med software til datakvalitet– dog før der var noget der hed open source og det i øvrigt kunne lade sig gøre i praksis. Det må være enormt spændende at være med i et sådant projekt med hele verden som tilskuer og mulig medhjælp.

I har i første omgang fokuseret på profilering og validering af data, som bestemt er et væsentligt område. Den store udfordring ligger formentlig i sammenligning af data, hvor man for eksempel skal afgøre, om en række i et kunderegister er den samme som en anden række – bedømt på navne, adresser, telefonnumre og så videre, som kan være stavet, vendt og formateret på forskellig vis.

Behovet for software til forbedring af datakvalitet er stort men dog meget udækket. I mit daglige arbejde oplever jeg, at den største konkurrent hedder ’laissez faire’, som oprindeligt betyder at ’lade stå til’, altså at det er med datakvalitet som med vejret: ”alle taler om det, men igen gør noget ved det”.

Men ’laissez-faire’ er også betegnelsen for en ekstrem form for liberalisme – om der her er en kobling til open source kan jeg ikke gennemskue.

  • 0
  • 0
Kasper Sørensen

Hej Henrik

Hold dig endelig opdateret på vores hjemmeside, for i næste version kommer der sammenlignings-funktionalitet :) Læs endelig mere på www.eobjects.dk/datacleaner

Jeg opfatter slet ikke din interesse som "lusket". Vi har med vilje valgt en af de mest virksomheds-venlige licenser (Apache Licensen 2.0) fordi vi ønsker at udbrede produktet og at folk kan bruge det så vidt muligt professionelt. Selvfølgelig med bagtanken om at de en dag vil bidrage til produktet - i form af reklamering, kode-bidrag, dokumentation, tests eller alt muligt andet der kan være med til at etablere DataCleaner.

  • 0
  • 0
Kasper Sørensen

Lige en kommentar mere - hvis du kan finde ud af at kompilere DataCleaner selv kan du faktisk allerede i den nuværende udviklings-version benytte "Dictionary lookup" validering som giver dig mulighed for at validere indholdet af en kolonne op mod en tekstfil's indhold. Eksempelvis kunne man have en tekstfil med firmanavne (et firmanavn pr. linie) og så lave et dictionary lookup på sin firma-tabel eller lign. og få at vide om der er nogen records der ikke er repræsenteret i éns "firma dictionary".

  • 0
  • 0
Henrik Liliendahl Sørensen

Opslag på firmanavne er yderst interessant.

Hvis man tager et almindeligt dansk kunderegister, som ikke i forvejen er CVR integreret, vil man opleve, at langt under halvdelen af virksomhedskundernes navne er stavet, som de står i CVR.

Dette betyder, at skal man have en bare nogenlunde overkommelig datakvalitets opgave foran sig, må man dels anvende fuzzy logik i sammenligningen af navne og dels også inddrage andre identifikationsdata såsom adresser, telefonnumre, hjemmesider, indehavere, brancher med videre.

Hvis der er tale om globale data bliver opgaven endnu mere udfordrende. Jeg har i flere år arbejdet på en tjeneste, hvor nordiske kunderegistre matches mod den såkaldte WorldBase, hvor der p.t. er registreret ikke mindre end 125 mio virksomheder i hele verden. Variationen i stavemåder på navne, adresser og så videre er nærmest kaotisk, og de metoder vi har udviklet, kalibreret og kombineret i tidens løb er ikke småting.

  • 0
  • 0
Kasper Sørensen

Til alle interesserede: Vi har netop frigivet en ny version, DataCleaner 1.4, som indeholder en masse forbedringer både på brugergrænsefladen og "under the hood"! Særligt for danske brugere er det interessant, at vi har inkluderet "dictionaries" til opslag af danske navne samt regexes til verificering af danske CPR-numre, telefonnumre, postnumre med mere.

Adressen er: http://eobjects.org/datacleaner

  • 0
  • 0