Spam bayes

1.000.000 spam pogingen

In september 2006 schreef ik een plugin voor nucleus; een SpamBayes spamfilter. Vandaag heeft die plugin op deze site zijn miljoenste poging onderschept.
Een semi-heugelijk feit. Fijn dat ik dat niet allemaal met het handje moest verwijderen. Jammer dat het onmogelijk lijkt om een website te hebben die zonder enige vorm van protectie zijn commentaarformulieren open heeft staan.

't is weer eens druk

Zoals altijd, zodra het werk teveel tijd vergt (in elk geval meer dan waar de baas je voor betaald) dan blijven de logjes uit. Niet zo verwonderlijk, want de meeste logjes hier zijn door het web geïnspireerd. En druk met werk betekent minder lezen.
Maar, ach daar kom ik wel weer overheen. Wat me meer zorgen baart is de onverminderde drang van de spammers om het web vol te kalken. Het lijkt tegenwoordig werkelijk willekeurig wat ze in de reactiepanelen, contactpanelen, referrer logs en trackbacks plempen. Commentaar zonder links, om uiteindelijk filter-rot te bewerkstelligen, het 10.000 willekeurige woorden opstel en de laatste referrers die gevuld zijn met meerdere links naar willekeurige sites die ze proberen te spammen. Let wel, daar waar normaal gesproken 1 verwijzende website hoort te staan vullen de heren blik-vlees met 10 of twintig tegelijk. Je weet meteen dat het spam is, maar de filters natuurlijk nog niet.

Spambayes [Wiki:NucleusCMS]

Sinds afgelopen zondag ongeveer elk uur dat ik niet voor mijn werk bezig was druk achter de feiten aan lopen hollen. En de feiten waren dat de spammerds duidelijk terug zijn van vakantie en druk bezig waren o.a. mijn weblog vol aan het spammen waren. Volgens mijn huidige teller zijn er meer dan 1700 spam commentaartjes richting mijn weblog gepost. Daarvan is er 1 onterecht op mijn weblog terecht gekomen, de rest is keurig in de bittenbak verdwenen. Andere nucleus cms gebruikers kunnen vanaf nu ook gebruik maken van ons nieuwste wapen tegen spam; spambayes [Wiki:NucleusCMS]. Volledige uitleg en donwload link op die pagina (in het engels weliswaar).
Happy spam hunting!

Zo'n verloren zondag

Na het ontwaken de laptop aangegooid en thunderbird een slinger gegeven. Tot mijn ontsteltenis constateerde ik dat een spam run succesvol door mijn filters was geglipt. En mijn vage idee van 'Spam Bayesian' filtering op de commentaartjes kreeg ineens vaste vormen. Met tegenzin zette ik mij achter het toetsenbord om deze taak uit te voeren. Na een speurtocht aan bestaande implementaties in PHP geschreven begon het proces van het assembleren en maken.
Ondertussen schakelde ik mijn spamfilters uit om de training van het filter te versnellen, want Spam Bayes werkt alleen als je voldoende data hebt om tegen aan te testen.
Uiteindelijk, rond een uurtje of 11 's avonds was het zover. Ik had een uitgebreide corpus aan data weten op te bouwen en alle blokjes hadden hun plek in de soure gevonden. Tijd voor een eerste test.
Blij als een kind zag ik dat een reactie die door mijn huidige filter was gesijpeld door Spam Bayes werd geclassificeerd als zijnde Spam.
Missie geslaagd.

Syndicate content
thank you for watching  Creative Commons License