E-mærket vil jagte fup-webshops med machine learning

24. juli 2017 kl. 05:141
Ved blandt andet at se på Whois-opslag og DNS-indstillinger, vil eMærket sætte ind mod fup-webshops.
Artiklen er ældre end 30 dage
Manglende links i teksten kan sandsynligvis findes i bunden af artiklen.

Problemet med fup-webshops, der sælger kopivarer via det danske .dk-domæne, florerer stadig.

Og det i så stor grad, at man hos e-mærket arbejder på en algoritme, der skal effektivisere jagten på svindel-domænerne.

Algoritmen, der forventes færdig i første udgave inden udgangen af i år, skal se på forskellige parametre for mere eller mindre automatisk at kunne identificere, om en hjemmeside, der eksempelvis sælger Nike-sko, faktisk er en legitim webshop, eller om der er noget lusket på færde.

Lusket kan i denne sammenhæng betyde, at kunden ikke får den ægte vare, men i stedet et par kopi-sko. Og det er vel at mærke, hvis man er heldig. Det kan også være, der ingen varer kommer, og at ens personlige oplysninger - inklusiv betalingskort-nummeret - bare bliver høstet og misbrugt i andre sammenhænge.

Artiklen fortsætter efter annoncen

Version2 har flere gange tidligere beskrevet problemstillingen med de falske webshops, der huserer på det danske toplevel-domæne, som e-mærket nu vil bekæmpe med en ny algoritme.

E-mærket

e-mærket repræsenterer en bred stifterkreds – fra Forbrugerrådet Tænk til Dansk Erhverv og DI. Medlemmerne tæller over 2.200 danske virksomheder, der driver e-handel inden for forskellige brancher. Fra biler til boligudstyr og fra dagligvarer til designertøj.
Kilde: e-mærket

Har anvendt crawler

Jimmie Borch, der er chefudvikler hos e-mærket fortæller, at organisationen tidligere har anvendt en crawler der via Google-søgninger har identificeret potentielle fup-webshops.

Der har dog været en del manuelt arbejde forbundet med denne tilgang, også i forhold til at identificere hvorvidt der nu også er tale om fup-butikker.

Artiklen fortsætter efter annoncen

Crawleren har blandt andet set på sådan noget som 'skæve priser'. Det er når en vare eksempelvis koster 47.68 kroner. Sådan et beløb figurerer som regel ikke på en legitim webbutik, og det vidner om, at der måske er sket en automatiseret omregning i forbindelse med opsætningen af den falske web-shop-skabelon.

Men allerede inden analysen af selve indholdet på et site, er der flere parametre, der kan analyseres på i forhold til et domæne, som kan afsløre, om der er tale om fup. Og det er blandt andet her, den kommende algoritme skal sættes ind.

»Med det nye projekt vil vi gerne indbygge noget mere automatik, så vi kan kigge mange flere domæner igennem. Eksempelvis alle .dk domæner, hvor en robot automatisk finder frem til potentielle fup-webshops,« siger Jimmie Borch.

I forhold til at få adgang til relevante de .dk-domæner, der skal scannes, så fortæller Jimmie Borch at e-mærket har et samarbejde med den danske toplevel-domæneadministrator DK-Hostmaster om at modtage en liste over alle registrerede .dk-domæner.

Artiklen fortsætter efter annoncen

»Det vil vi blandt andet gøre ved at lave whois-opslag og ved at se på, hvilken ip-adresse et domæne peger på. Hvis der er en fup-webshop på en server, så kan det jo være, der ligger flere fup-butikker på samme server.«

Kortene tæt til kroppen

Af frygt for at give svindlerne bag fup-webshops for stor indsigt ønsker man hos e-mærket ikke at gå helt i detaljer med, hvad algoritmen faktisk kommer til at holde øje. Jimmie Borch kan dog godt sige, at der blandt andet vil blive set på hvilke DNS indstillinger, et domæne har.

Og så vil e-mærket også analysere oplysningerne fra whois-opslag.

»Hvad whois angår, så vil vi se på landet fra registranten. Vi har set en del fra Kina, som har oprettet fup-webshops,« siger Jimmie Borch.

Derudover skal der stadig analyseres på selve indholdet af et domæne også, fortæller han.

»Der er nogle kinesiske fup-webshops, der har et helt bestemt setup. Jeg tror, de bruger den samme template, dem vil vi gerne kunne detektere. Vi vil også se på, om der er CVR-nummer, kontaktformular, telefonnummer og sådan noget.«

I forhold til CVR-nummer kunne en mulighed i den kommende software være, at efterslå det nummer, som optræder på et domæne, i cvr-registret for at se, om der er sammenhæng i oplysningerne. Denne funktion er dog endnu kun en løs tanke, og ligger altså ikke fast.

Trods den højere grad af automatisering sammenholdt med tidligere i jagten på fup-webshops, så vil der - i hvert fald i starten - stadig skulle en manuel verifikation til, før en webshop bliver stemplet som værende fup.

Machine learning

I en opfølgende mail, fortæller Jimmie Borch, at e-mærket vil anvende et slags scoringssystem i forhold de mulige fup-webshop-kandidater ud fra de indsamlede parametre. Altså som ip, whois og den slags.

»Vi vil i første omgang kigge på forskellige parametre, vi ved har en betydning, og lave et scoringssystem, kombineret med en manuelt verifikation og manuel tuning af parametrene i scoringen,« skriver han og tilføjer:

»Vi vil efterfølgende benytte Machine Learning til at analysere verificerede fup-webshop, og kombineret med alt data, vi har omkring webshoppen, bygge en model, der selv kan identificere relevante parametre og lære af data,« skriver han og tilføjer i den forbindelse, at mulige algoritmer her kunne være et beslutningstræ eller neuralt netværk, kombineret med algoritmer til at analysere tekst med mere.

Det er planen, at e-mærkets kommende software skal køre på PHP og Python, med en MySQL eller PostgreSQL-database plus eventuel MongoDB til opbevaring af store mængder data. Og så vil en Redis database vil blive benyttet til cache og kø-system.

1 kommentar.  Hop til debatten
Denne artikel er gratis...

...men det er dyrt at lave god journalistik. Derfor beder vi dig overveje at tegne abonnement på Version2.

Digitaliseringen buldrer derudaf, og it-folkene tegner fremtidens Danmark. Derfor er det vigtigere end nogensinde med et kvalificeret bud på, hvordan it bedst kan være med til at udvikle det danske samfund og erhvervsliv.

Og der har aldrig været mere akut brug for en kritisk vagthund, der råber op, når der tages forkerte it-beslutninger.

Den rolle har Version2 indtaget siden 2006 - og det bliver vi ved med.

Debatten
Log ind eller opret en bruger for at deltage i debatten.
settingsDebatindstillinger
1
24. august 2017 kl. 11:02

Jeg er forundret, i 2016 kunne man læse at “e-mærket løbende gennemtrawler nettet for at finde mistænkelige butikker”. I denne artikel står der at de har brugt en google scraper. Men med en Google scraper har de jo aldrig været i nærheden af at gennemtrawle nettet.

https://www.computerworld.dk/art/236426/efter-lukning-af-flere-hundrede-danske-fup-websites-saadan-spotter-du-en-fupbutik-paa-nettet

En Google scraper, er fuldstændig det sammen som en almindelig søgning, den eneste forskel er at det er et program der gør det i stedet.

Hvad har E-mærket dog søgt på i Google for at finde mistænklige butikker? “skæve priser”?

Det lyder lidt spøjst at de skulle have et søgeord/sætning der kan finde mistænkelige butikker via en Google søgning.