Gå til hovedindhold
Version2 it for professionelle
Forsiden

Hovedmenu

  • It-nyheder
  • Blogs
  • It-job
  • It-firmaer
  • Whitepapers
  • Opret bruger
  • Log ind
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?
Se kommentarer (7)
Emner

Sådan virker verdens bedste spam-dræber fra Århus

Det lille århusianske firma Solido Systems har på sikkerhedskonferencen CEAS vundet prisen for årets bedste spam-filter. Bag det fine resultat ligger 60 selvjusterende algoritmer. Men der er ingen udsigt til at vinde kampen over spammerne.

Af Tania Andersen Tirsdag, 26. august 2008 - 8:53

Den lille århusianske virksomhed Solido Systems har med bare fire udviklere i maven formået at slå de store af banen, når det handler om at sortere spam fra indboksen.

Ved sikkerhedskonferencen CEAS, som blev afholdt for nylig i San Francisco, kunne Solido Systems algoritmer overgå konkurrenterne ved at frasortere 99,9 procent af den indkomne spam.

Den unge direktør Christer Hasse, som har en baggrund i datalogi fra Aarhus Universitet, fortæller, hvorfor firmaets algoritmer til spam-filtrering er bedre end resten af feltet:

»Du kan hurtigt blive verdens bedste, hvis du siger at alt er spam. Udfordringen ligger i at sortere så meget som muligt spam fra, men undgå at sortere gode mails fra. Det er der, hvor vi har udmærket os. Man kunne sortere endnu mere spam fra, men det nytter ikke noget hvis man har for mange falske positiver. Det er en vægtning,« fortæller Christer Hasse.

De mails, der slap igennem Solido Systems filter, var mails, som handlede om spam, og det er svært for de mange algoritmer at skelne en "gyldig" forwarded spammail, siger direktøren.

»Jeg tror vi har over 60 forskellige filter-metoder. Nogle af dem er mere betydningsfulde end andre.«

To slags filtre

Algoritmerne kan opdeles i to hovedtyper: de content-baserede filtre og de kontekst-baserede filtre. De content-baserede undersøger indholdet i mailen, inklusiv tekst, billeder og HTML-kode.

De kontekstuelle filtre kigger på alt det, der er ude om, så som hvilket IP-nummer mailen er afsendt fra.

»Vi har et filter, der vurderer hver enkelt IP-nummer. Hvor mange gode mails har vi fået fra det IP-nummer, hvor mange dårlige mails. Så kan man vægte, hvor godt det er.«

Nogle af algoritmerne er almindeligt kendte, men virksomheden har forfinet alle de anvendte algoritmer. Derudover benyttes en lang række algoritmer, som Solido Systems selv har opfundet.

»Vi har siddet fire mand og udviklet på det her i fem år, men det filter vi kører med nu, er to år gammelt,« fortæller Christer Hasse.

Blandt de gamle kendinge er baysianske filtre, som typisk er tekstfiltre hvor man kigger på indholdet i mailen. Her er det ikke bare enkelte ord der tjekkes på, men også rækkefølge og sammenhæng.

»Hvis du skriver "good offer for you," så er alle ordene hver især normale ord. Men sammenholdt med, at når der både står "for" og "you," så vægter det lidt højere mod spam.«

Automatisk finjustering

Men det er nu ikke de enkelte algoritmer, der gør Solido Systems teknik bedre end resten af feltet.

»Det, der adskiller vores, er, at vi kigger på mange sammenhænge og vægter alle sammenhængene automatisk. Filtrene står hele tiden og tester hinanden af, og vi har en automatisk vægtning af, hvor meget vi kan stole på hvert enkelt filter.«

Finjusteringen af vægtningen af de forskellige algoritmer sker på baggrund af en løbende datamining af det mailflow, Solido Systems har adgang til. Det stammer fra søstervirksomheden Armada Hosting, som Christer Hasse også står bag, samt den hostede mailservice Mailsafe.dk, som virksomheden også driver.

»Når filtrene står og scanner brugernes data, så sammenligner de sig med hinanden. Hvis alle de kontekstuelle filtre siger: det her er en spam-mail, men content-filtrene måske ikke ser den her mail som spam. Så ved vi, at der er noget skævt i vores content-filtre, de fanger ikke denne her mail, så måske skal de trænes i denne her mails indhold.«

Derudover får virksomheden også rapportering fra brugerene, der bliver tjekket igennem manuelt.

Men udviklingen går ikke i stå, bare fordi man har vundet en konkurrence. Solido Systems har en lang ønskeseddel, som virksomheden forsat vil udvikle på. Det stiller krav.

»Som en lille virksomhed er vi tvunget til at være mere kreative end de store. Tager du Google, så har de ekstremt meget datamateriale at gå ud fra. Vi er tvunget til at være kreative, fordi vi er få udviklere og ikke har de store ressourcer. Så er man nødt til at tænke anderledes for at opnå resultater.«

Ingen løsning forude Og der bliver også brug for spamfiltre i fremtiden, vurderer Christer Hasse. Antispam-protokoller, hvor identiteten af den server, der sender mailen sikres ved kryptografiske metoder, kan løse noget af problemet, men det er ikke nok. For Google og Hotmails kontoer bliver også brugt til spam, og det er ikke muligt at sætte dem på en sortliste over slemme servere.

Spammerne bryder kontoer ved phishing eller ved at auto-hacke kontoer, og sender mails ud fra uskyldige brugeres email-kontoer. Det er også lykkedes hackerne fundet metoder til at omgå de "captchas," som skal forhindre robotter i at åbne mailkonti hos webmailudbydere så som Google og Yahoo.

»Så vi ser mere og mere spam komme ud fra webmailkontoer. Det er der, hvor vi har en udfordring. Du kan jo ikke bare blokere Googles IP-nummer.«

Branchen bliver dygtigere og dygtigere, og spammerne får det hårdere og hårdere, men hvis Christer Hasse kigger over på den anden side af hegnet, så kunne han også finde på rigtig mange nye måder at sende spam på.

»Jeg ser ikke, at det er løst i morgen og heller ikke i fremtiden. Hvis det skal løses, så skal der en ny mail-protokol til. Der skal indbygges mere sikkerhed i SMTP-protokollen. Den skal skrives helt om.«

Indtil videre er der ikke andre løsninger på bordet end de tidligere nævnte protokoller SPF og DKIM, som de store mailudbydere benytter til at sikre afsenderserveren identitet.

»Det kræver, at de allerstørste sætter sig sammen og tager nogle beslutninger. Det vil sige Google, Microsoft og alle de mailserver-leverandører, der er derude. Det er desværre ikke så noget, vi ser lige om hjørnet,« slutter Christer Hasse.

Send Tweet
Udskriv

Kommentarer (7)

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Christian Preetzmann 26. aug. 2008 - 09.55
 
Teste en lamborghini på en parkeringsplads

Det kunne være interessant at vide hvor mange tegnsæt som er inkluderet i denne test. Umiddelbart ligner det et velkordineret pr-scam for at komme ind på det Amerikanske marked. Men derfra og så til at kalde Solido's løsning til verdens bedste er der milevidt.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Kim Jensen 26. aug. 2008 - 10.37
 
Re: Teste en lamborghini på en parkeringsplads

Nu var det jo ved citat: "sikkerhedskonferencen CEAS, som blev afholdt for nylig i San Francisco" og ikke ved et marketingsmøde på Solidos kontor....

Jeg synes det er superflot, at Solido har præsteret at lave et filter, der fanger så mange spammails. Det er godt gået af en dansk iværksætter-virksomhed.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Gustav Brock 26. aug. 2008 - 12.01
 
Konen, konto, kontre .. konti

Ups, når man nu beskæftiger sig professionelt med det, kunne Tanja give Christer et lille tip om pluralisformen af konto, konti, inden hun skrev artiklen færdig.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Tania Andersen 26. aug. 2008 - 12.12
 
Re: Konen, konto, kontre .. konti

Hej Gustav,

Pkt. 1: Der er ifølge retskrivingsordbogen valgfrihed imellem formerne, og da vi bor i Danmark synes jeg det er rimeligt nok at benytte den danske bøjning.

Pkt. 2: Mit fornavn staves Tania, ikke Tanja.

Hilsen
Tania Andersen
Version2

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Gustav Brock 26. aug. 2008 - 12.16
 
Der kan gøres noget ved spam

Spammere kigger også på deres ressourceforbrug, og kan de se i deres log, at nogle domæner konsekvent ikke lukker post ind, ryger de ud af listen. Hvorfor bruge båndbredde på at sende til nogle, hvor du ikke en gang har en chance for at komme igennem deres filter?

Det er i hvert fald vores konklusion, efter at vi i snart to år på vores offentligt kendte domæne har brugt et filter, der afviser spam og virus i stedet for at modtage og filtrere det. I den periode er spammængden faldet til ca. en tiendedel, så vores spamratio er faldet fra ca. 99% til under 90%.

Intet tyder på, at den globale spamaktivitet er faldet, så vi kan ikke finde anden forklaring end, at vores domæne må være blevet pillet af nogle af de lister, spammerne bruger.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Gustav Brock 26. aug. 2008 - 12.25
 
Re: Konen, konto, kontre .. konti

Du har ret, kan jeg se. Det lyder bare skrækkeligt, når man er af den gamle skole.

Beklager navneforvirringen. Versalerne herover er ikke nemme at læse.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer
Stig Johansen 26. aug. 2008 - 15.50
 
Ingen løsning forude ?

Måske - måske ikke.

Men hvis vi vender blikket nedad og kigger på fødekæden, så er der muligheder for 'udsultning' af spammerne.

Tesen er, at i 'dagens Danmark', så er budskabet/indholdet i spam baseret på et link til en mere eller mindre inferiør site, der enten indeholder malware, eller tilbud om 'visse produkter'.

Mange af disse sites er ikke spammernes egne, men sites/servere der er hijacked.

Ud fra troen om, at alle er gode, og ønsker at holde deres sites fri for alle mulige (SQL)injections, har jeg lavet et værktøj, der kan holde øje med indholdet på websites holdt op mod en lokal master.

At holde sit website rent stopper ingen spam, men ved at invalidere indholdet(linket) stopper 'de' måske af sig selv.

Projektet er slet ikke klart til fremvisning, men hvis man er interesseret i at 'rense' internettet ligger det her:
http://w-o-p-r.dk/storm.monitor/index.asp

Alt hvad der(funktionelte) skal bruges ligger i - ja rent ud sagt - rodebunken.

Det er en slags Intrusion Detection System, der vil fange ændringer/tilføjelser i filer (.exe .js .htaccess osv.), samt fange SQL Injections(MS SQLServer) 'on the fly'.

Man kan også kalde det et forsøg på at 'afskære forsyningstropperne'.

  • Stem op 0
  • Stem ned 0
  • Log ind eller opret en konto for at skrive kommentarer

Tilføj kommentar

Opret en konto eller log ind for at følge indhold på Version2 - og bliv opdateret via e-mail eller rss

Følg kommentarer
Log ind herunder eller opret en bruger for at skrive kommentarer
Du kan logge ind med din e-mail-adresse
Der er forskel på store og små bogstaver i adgangskoden.
Glemt adgangskode?

Seneste nyt

Danske internetudbydere nægter at blokere 12 pokersites

Udgivet 24. maj 13.58Opdateret 24. maj 13.58

Dokumentation: Her er Spillemyndighedens krav - og 12 ulovlige pokersider

Udgivet 24. maj 13.58Opdateret 24. maj 13.58

Ny blog: Offentlige it-projekter set indefra

Udgivet 24. maj 13.19Opdateret 24. maj 13.30

De 170 fyrede hos IBM Danmark får 30.000 kroner i hånden

Udgivet 24. maj 12.19Opdateret 24. maj 12.19

Google vinder patentsagen om Android: Brød ikke Oracles Java-patenter

Udgivet 24. maj 11.30Opdateret 24. maj 11.30

Flere it-nyheder »

Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Whitepapers

Om eBinder

eBinder ApS

Kick-start your master data management initiative

Affecto Denmark

Affecto Data Quality Assessment: Er din indsigt og beslutning baseret på validt data?

Affecto Denmark

Framework til datamigrering i SAP miljøer - spar op til 50% på dine Data Migration udgifter

Affecto Denmark

Få et Data Warehouse (DW) review hos Affecto

Affecto Denmark
  • Flere whitepapers

Seneste debat

  1. Dokumentation: Her er Spillemyndighedens krav - og 12 ulovlige pokersider

    1 comment.
    Last update 6 minutter 12 sekunder
    Skrevet af Jens Holm
  2. ESA arbejder på interplanetarisk internet

    4 comments.
    Last update 8 minutter 41 sekunder
    Skrevet af Chano Klinck Andersen
  3. Fokus på ny model når kravspecifikationen skal vurderes

    1 comment.
    Last update 8 minutter 57 sekunder
    Skrevet af Christian Kirkedal
  4. Kynisk it-guru: »Internettet er basalt set noget lort«

    6 comments.
    Last update 15 minutter 53 sekunder
    Skrevet af Nikolaj Brinch Jørgensen
  5. Meego-afløseren Tizen klar til at tage kampen op med Android

    9 comments.
    Last update 30 minutter 48 sekunder
    Skrevet af Dennis Krøger
  6. Oracle tabte, vandt Google Java ?

    13 comments.
    Last update 49 minutter 29 sekunder
    Skrevet af Casper Bang
  7. Das NemID trojaner - paranoia eller rettidig omhu?

    25 comments.
    Last update 50 minutter 56 sekunder
    Skrevet af Gert Madsen
  8. HTML5 – det nye sort?

    16 comments.
    Last update 55 minutter 28 sekunder
    Skrevet af Jesper Brunholm

Mere debat »

Information

  • Kontakt redaktionen
  • Job- og annoncesalg
  • Teknisk support
  • Om Version2
  • Brugerbetingelser
  • Privatlivspolitik

Aktuelle emner

  • Agil udvikling
  • Android
  • Bruttolønsordning
  • Business Intelligence
  • Cloud computing
  • Download Windows 8
  • HTML5
  • Harddisk-priser
  • IE9
  • Intranet
  • It-sikkerhed
  • Kindle Fire
  • Multimedieskat
  • NemID
  • OS X Mountain Lion
  • Open source CMS
  • Projektledelse
  • Scrum
  • Sharepoint intranet
  • Storage
  • Ubuntu 11.10
  • Virtualisering
  • Windows 8
  • Windows Phone 7
  • iOS 5
  • iPhone 4S

Tjenester

  • Android-app
  • iPhone-app
  • RSS-feeds
Følg @version2dk
Tilmeld dig Version2's it-nyhedsbrev og vind den nye iPad.

Version2 udgives af

  • Mediehuset Ingeniøren A/S work Skelbækgade 4 1717 København V
  • Tlf. work 33265300