Zo'n verloren zondag

Na het ontwaken de laptop aangegooid en thunderbird een slinger gegeven. Tot mijn ontsteltenis constateerde ik dat een spam run succesvol door mijn filters was geglipt. En mijn vage idee van 'Spam Bayesian' filtering op de commentaartjes kreeg ineens vaste vormen. Met tegenzin zette ik mij achter het toetsenbord om deze taak uit te voeren. Na een speurtocht aan bestaande implementaties in PHP geschreven begon het proces van het assembleren en maken.
Ondertussen schakelde ik mijn spamfilters uit om de training van het filter te versnellen, want Spam Bayes werkt alleen als je voldoende data hebt om tegen aan te testen.
Uiteindelijk, rond een uurtje of 11 's avonds was het zover. Ik had een uitgebreide corpus aan data weten op te bouwen en alle blokjes hadden hun plek in de soure gevonden. Tijd voor een eerste test.
Blij als een kind zag ik dat een reactie die door mijn huidige filter was gesijpeld door Spam Bayes werd geclassificeerd als zijnde Spam.
Missie geslaagd.
Vlug nog even een 'ham' reactie testen en dan consolideren.
Mis
Alle ham berichten kwamen ook als Spam naar buiten. Dus bleef niets anders over dan het hele 'wegen en meten' proces te gaan begrijpen, want de huidige implementatie zuigt gigantisch.
Vervolgens vliegt de linux server eruit, voor de tweede keer in drie dagen. En weer precies op het moment dat de backup draait. Naar rot ende vervelend.

Morgen maar eens goed naar :Implement Bayesian inference using PHP en nog een stapel andere links kijken. Dan maar zelf leren hoe je dit goed uitrekent ...
[update 04:03]
it's working! Volgende stappen, trainings programma opzetten om snel spam / ham te kunnen toevoegen aan de db en wellicht, als de goden jullie gunstig gezind zijn publiceer ik hem als een nucleus plugin
[/update]

Comments

chapeaux voor zoveel doortastendheid

Getergd zijn is een goede drijfveer voor dit soort ontwikkelingen. Helaas kan ik de rekening nergens heensturen.

previous item: I Give up next item: Matchbox
thank you for watching  Creative Commons License