Sådan virker verdens bedste spam-dræber fra Århus
Den lille århusianske virksomhed Solido Systems har med bare fire udviklere i maven formået at slå de store af banen, når det handler om at sortere spam fra indboksen.
Ved sikkerhedskonferencen CEAS, som blev afholdt for nylig i San Francisco, kunne Solido Systems algoritmer overgå konkurrenterne ved at frasortere 99,9 procent af den indkomne spam.
Den unge direktør Christer Hasse, som har en baggrund i datalogi fra Aarhus Universitet, fortæller, hvorfor firmaets algoritmer til spam-filtrering er bedre end resten af feltet:
»Du kan hurtigt blive verdens bedste, hvis du siger at alt er spam. Udfordringen ligger i at sortere så meget som muligt spam fra, men undgå at sortere gode mails fra. Det er der, hvor vi har udmærket os. Man kunne sortere endnu mere spam fra, men det nytter ikke noget hvis man har for mange falske positiver. Det er en vægtning,« fortæller Christer Hasse.
De mails, der slap igennem Solido Systems filter, var mails, som handlede om spam, og det er svært for de mange algoritmer at skelne en "gyldig" forwarded spammail, siger direktøren.
»Jeg tror vi har over 60 forskellige filter-metoder. Nogle af dem er mere betydningsfulde end andre.«
To slags filtre
Algoritmerne kan opdeles i to hovedtyper: de content-baserede filtre og de kontekst-baserede filtre. De content-baserede undersøger indholdet i mailen, inklusiv tekst, billeder og HTML-kode.
De kontekstuelle filtre kigger på alt det, der er ude om, så som hvilket IP-nummer mailen er afsendt fra.
»Vi har et filter, der vurderer hver enkelt IP-nummer. Hvor mange gode mails har vi fået fra det IP-nummer, hvor mange dårlige mails. Så kan man vægte, hvor godt det er.«
Nogle af algoritmerne er almindeligt kendte, men virksomheden har forfinet alle de anvendte algoritmer. Derudover benyttes en lang række algoritmer, som Solido Systems selv har opfundet.
»Vi har siddet fire mand og udviklet på det her i fem år, men det filter vi kører med nu, er to år gammelt,« fortæller Christer Hasse.
Blandt de gamle kendinge er baysianske filtre, som typisk er tekstfiltre hvor man kigger på indholdet i mailen. Her er det ikke bare enkelte ord der tjekkes på, men også rækkefølge og sammenhæng.
»Hvis du skriver "good offer for you," så er alle ordene hver især normale ord. Men sammenholdt med, at når der både står "for" og "you," så vægter det lidt højere mod spam.«
Automatisk finjustering
Men det er nu ikke de enkelte algoritmer, der gør Solido Systems teknik bedre end resten af feltet.
»Det, der adskiller vores, er, at vi kigger på mange sammenhænge og vægter alle sammenhængene automatisk. Filtrene står hele tiden og tester hinanden af, og vi har en automatisk vægtning af, hvor meget vi kan stole på hvert enkelt filter.«
Finjusteringen af vægtningen af de forskellige algoritmer sker på baggrund af en løbende datamining af det mailflow, Solido Systems har adgang til. Det stammer fra søstervirksomheden Armada Hosting, som Christer Hasse også står bag, samt den hostede mailservice Mailsafe.dk, som virksomheden også driver.
»Når filtrene står og scanner brugernes data, så sammenligner de sig med hinanden. Hvis alle de kontekstuelle filtre siger: det her er en spam-mail, men content-filtrene måske ikke ser den her mail som spam. Så ved vi, at der er noget skævt i vores content-filtre, de fanger ikke denne her mail, så måske skal de trænes i denne her mails indhold.«
Derudover får virksomheden også rapportering fra brugerene, der bliver tjekket igennem manuelt.
Men udviklingen går ikke i stå, bare fordi man har vundet en konkurrence. Solido Systems har en lang ønskeseddel, som virksomheden forsat vil udvikle på. Det stiller krav.
»Som en lille virksomhed er vi tvunget til at være mere kreative end de store. Tager du Google, så har de ekstremt meget datamateriale at gå ud fra. Vi er tvunget til at være kreative, fordi vi er få udviklere og ikke har de store ressourcer. Så er man nødt til at tænke anderledes for at opnå resultater.«
Ingen løsning forude Og der bliver også brug for spamfiltre i fremtiden, vurderer Christer Hasse. Antispam-protokoller, hvor identiteten af den server, der sender mailen sikres ved kryptografiske metoder, kan løse noget af problemet, men det er ikke nok. For Google og Hotmails kontoer bliver også brugt til spam, og det er ikke muligt at sætte dem på en sortliste over slemme servere.
Spammerne bryder kontoer ved phishing eller ved at auto-hacke kontoer, og sender mails ud fra uskyldige brugeres email-kontoer. Det er også lykkedes hackerne fundet metoder til at omgå de "captchas," som skal forhindre robotter i at åbne mailkonti hos webmailudbydere så som Google og Yahoo.
»Så vi ser mere og mere spam komme ud fra webmailkontoer. Det er der, hvor vi har en udfordring. Du kan jo ikke bare blokere Googles IP-nummer.«
Branchen bliver dygtigere og dygtigere, og spammerne får det hårdere og hårdere, men hvis Christer Hasse kigger over på den anden side af hegnet, så kunne han også finde på rigtig mange nye måder at sende spam på.
»Jeg ser ikke, at det er løst i morgen og heller ikke i fremtiden. Hvis det skal løses, så skal der en ny mail-protokol til. Der skal indbygges mere sikkerhed i SMTP-protokollen. Den skal skrives helt om.«
Indtil videre er der ikke andre løsninger på bordet end de tidligere nævnte protokoller SPF og DKIM, som de store mailudbydere benytter til at sikre afsenderserveren identitet.
»Det kræver, at de allerstørste sætter sig sammen og tager nogle beslutninger. Det vil sige Google, Microsoft og alle de mailserver-leverandører, der er derude. Det er desværre ikke så noget, vi ser lige om hjørnet,« slutter Christer Hasse.
Kommentarer (7)
Det kunne være interessant at vide hvor mange tegnsæt som er inkluderet i denne test. Umiddelbart ligner det et velkordineret pr-scam for at komme ind på det Amerikanske marked. Men derfra og så til at kalde Solido's løsning til verdens bedste er der milevidt.
Nu var det jo ved citat: "sikkerhedskonferencen CEAS, som blev afholdt for nylig i San Francisco" og ikke ved et marketingsmøde på Solidos kontor....
Jeg synes det er superflot, at Solido har præsteret at lave et filter, der fanger så mange spammails. Det er godt gået af en dansk iværksætter-virksomhed.
Ups, når man nu beskæftiger sig professionelt med det, kunne Tanja give Christer et lille tip om pluralisformen af konto, konti, inden hun skrev artiklen færdig.
Hej Gustav,
Pkt. 1: Der er ifølge retskrivingsordbogen valgfrihed imellem formerne, og da vi bor i Danmark synes jeg det er rimeligt nok at benytte den danske bøjning.
Pkt. 2: Mit fornavn staves Tania, ikke Tanja.
Hilsen
Tania Andersen
Version2
Spammere kigger også på deres ressourceforbrug, og kan de se i deres log, at nogle domæner konsekvent ikke lukker post ind, ryger de ud af listen. Hvorfor bruge båndbredde på at sende til nogle, hvor du ikke en gang har en chance for at komme igennem deres filter?
Det er i hvert fald vores konklusion, efter at vi i snart to år på vores offentligt kendte domæne har brugt et filter, der afviser spam og virus i stedet for at modtage og filtrere det. I den periode er spammængden faldet til ca. en tiendedel, så vores spamratio er faldet fra ca. 99% til under 90%.
Intet tyder på, at den globale spamaktivitet er faldet, så vi kan ikke finde anden forklaring end, at vores domæne må være blevet pillet af nogle af de lister, spammerne bruger.
Du har ret, kan jeg se. Det lyder bare skrækkeligt, når man er af den gamle skole.
Beklager navneforvirringen. Versalerne herover er ikke nemme at læse.
Måske - måske ikke.
Men hvis vi vender blikket nedad og kigger på fødekæden, så er der muligheder for 'udsultning' af spammerne.
Tesen er, at i 'dagens Danmark', så er budskabet/indholdet i spam baseret på et link til en mere eller mindre inferiør site, der enten indeholder malware, eller tilbud om 'visse produkter'.
Mange af disse sites er ikke spammernes egne, men sites/servere der er hijacked.
Ud fra troen om, at alle er gode, og ønsker at holde deres sites fri for alle mulige (SQL)injections, har jeg lavet et værktøj, der kan holde øje med indholdet på websites holdt op mod en lokal master.
At holde sit website rent stopper ingen spam, men ved at invalidere indholdet(linket) stopper 'de' måske af sig selv.
Projektet er slet ikke klart til fremvisning, men hvis man er interesseret i at 'rense' internettet ligger det her:
http://w-o-p-r.dk/storm.monitor/index.asp
Alt hvad der(funktionelte) skal bruges ligger i - ja rent ud sagt - rodebunken.
Det er en slags Intrusion Detection System, der vil fange ændringer/tilføjelser i filer (.exe .js .htaccess osv.), samt fange SQL Injections(MS SQLServer) 'on the fly'.
Man kan også kalde det et forsøg på at 'afskære forsyningstropperne'.

