E-mærket vil jagte fup-webshops med machine learning

Ved blandt andet at se på Whois-opslag og DNS-indstillinger, vil eMærket sætte ind mod fup-webshops.

Problemet med fup-webshops, der sælger kopivarer via det danske .dk-domæne, florerer stadig.

Og det i så stor grad, at man hos e-mærket arbejder på en algoritme, der skal effektivisere jagten på svindel-domænerne.

Algoritmen, der forventes færdig i første udgave inden udgangen af i år, skal se på forskellige parametre for mere eller mindre automatisk at kunne identificere, om en hjemmeside, der eksempelvis sælger Nike-sko, faktisk er en legitim webshop, eller om der er noget lusket på færde.

Læs også: Kinesiske fupbutikker vælter atter frem på danske domæner

Lusket kan i denne sammenhæng betyde, at kunden ikke får den ægte vare, men i stedet et par kopi-sko. Og det er vel at mærke, hvis man er heldig. Det kan også være, der ingen varer kommer, og at ens personlige oplysninger - inklusiv betalingskort-nummeret - bare bliver høstet og misbrugt i andre sammenhænge.

Version2 har flere gange tidligere beskrevet problemstillingen med de falske webshops, der huserer på det danske toplevel-domæne, som e-mærket nu vil bekæmpe med en ny algoritme.

Har anvendt crawler

Jimmie Borch, der er chefudvikler hos e-mærket fortæller, at organisationen tidligere har anvendt en crawler der via Google-søgninger har identificeret potentielle fup-webshops.

Der har dog været en del manuelt arbejde forbundet med denne tilgang, også i forhold til at identificere hvorvidt der nu også er tale om fup-butikker.

Crawleren har blandt andet set på sådan noget som 'skæve priser'. Det er når en vare eksempelvis koster 47.68 kroner. Sådan et beløb figurerer som regel ikke på en legitim webbutik, og det vidner om, at der måske er sket en automatiseret omregning i forbindelse med opsætningen af den falske web-shop-skabelon.

Men allerede inden analysen af selve indholdet på et site, er der flere parametre, der kan analyseres på i forhold til et domæne, som kan afsløre, om der er tale om fup. Og det er blandt andet her, den kommende algoritme skal sættes ind.

»Med det nye projekt vil vi gerne indbygge noget mere automatik, så vi kan kigge mange flere domæner igennem. Eksempelvis alle .dk domæner, hvor en robot automatisk finder frem til potentielle fup-webshops,« siger Jimmie Borch.

I forhold til at få adgang til relevante de .dk-domæner, der skal scannes, så fortæller Jimmie Borch at e-mærket har et samarbejde med den danske toplevel-domæneadministrator DK-Hostmaster om at modtage en liste over alle registrerede .dk-domæner.

»Det vil vi blandt andet gøre ved at lave whois-opslag og ved at se på, hvilken ip-adresse et domæne peger på. Hvis der er en fup-webshop på en server, så kan det jo være, der ligger flere fup-butikker på samme server.«

Kortene tæt til kroppen

Af frygt for at give svindlerne bag fup-webshops for stor indsigt ønsker man hos e-mærket ikke at gå helt i detaljer med, hvad algoritmen faktisk kommer til at holde øje. Jimmie Borch kan dog godt sige, at der blandt andet vil blive set på hvilke DNS indstillinger, et domæne har.

Og så vil e-mærket også analysere oplysningerne fra whois-opslag.

»Hvad whois angår, så vil vi se på landet fra registranten. Vi har set en del fra Kina, som har oprettet fup-webshops,« siger Jimmie Borch.

Derudover skal der stadig analyseres på selve indholdet af et domæne også, fortæller han.

»Der er nogle kinesiske fup-webshops, der har et helt bestemt setup. Jeg tror, de bruger den samme template, dem vil vi gerne kunne detektere. Vi vil også se på, om der er CVR-nummer, kontaktformular, telefonnummer og sådan noget.«

I forhold til CVR-nummer kunne en mulighed i den kommende software være, at efterslå det nummer, som optræder på et domæne, i cvr-registret for at se, om der er sammenhæng i oplysningerne. Denne funktion er dog endnu kun en løs tanke, og ligger altså ikke fast.

Trods den højere grad af automatisering sammenholdt med tidligere i jagten på fup-webshops, så vil der - i hvert fald i starten - stadig skulle en manuel verifikation til, før en webshop bliver stemplet som værende fup.

Machine learning

I en opfølgende mail, fortæller Jimmie Borch, at e-mærket vil anvende et slags scoringssystem i forhold de mulige fup-webshop-kandidater ud fra de indsamlede parametre. Altså som ip, whois og den slags.

»Vi vil i første omgang kigge på forskellige parametre, vi ved har en betydning, og lave et scoringssystem, kombineret med en manuelt verifikation og manuel tuning af parametrene i scoringen,« skriver han og tilføjer:

»Vi vil efterfølgende benytte Machine Learning til at analysere verificerede fup-webshop, og kombineret med alt data, vi har omkring webshoppen, bygge en model, der selv kan identificere relevante parametre og lære af data,« skriver han og tilføjer i den forbindelse, at mulige algoritmer her kunne være et beslutningstræ eller neuralt netværk, kombineret med algoritmer til at analysere tekst med mere.

Det er planen, at e-mærkets kommende software skal køre på PHP og Python, med en MySQL eller PostgreSQL-database plus eventuel MongoDB til opbevaring af store mængder data. Og så vil en Redis database vil blive benyttet til cache og kø-system.

Tips og korrekturforslag til denne historie sendes til tip@version2.dk
Følg forløbet
Kommentarer (1)
sortSortér kommentarer
  • Ældste først
  • Nyeste først
  • Bedste først
Adam Petersen

Jeg er forundret, i 2016 kunne man læse at “e-mærket løbende gennemtrawler nettet for at finde mistænkelige butikker”. I denne artikel står der at de har brugt en google scraper. Men med en Google scraper har de jo aldrig været i nærheden af at gennemtrawle nettet.

https://www.computerworld.dk/art/236426/efter-lukning-af-flere-hundrede-...

En Google scraper, er fuldstændig det sammen som en almindelig søgning, den eneste forskel er at det er et program der gør det i stedet.

Hvad har E-mærket dog søgt på i Google for at finde mistænklige butikker? “skæve priser”?

Det lyder lidt spøjst at de skulle have et søgeord/sætning der kan finde mistænkelige butikker via en Google søgning.

  • 0
  • 0
Log ind eller Opret konto for at kommentere
IT Company Rank
maximize minimize