bsfilter 利用の廃止

昨年12月の段階では、単語頻度分析には bsfilter を使用していたのですが、どうも成績が良くない。スパムの洩れが増えてきました。洩れの様子から、その原因が単語頻度分析にあると推定できるため、bsfilter のソースを覗いてみました。

なんと、bsfilter はボディーだけでなく、ヘッダも見ているようです。spamshutter.com は、単語頻度分析を除き、考えうる限りの要素を分析することを指向しているのですが、bsfilter がその領域まで踏み込んでいるとすれば重複する要素もあります。

いずれ bsfilter をやめなければと思っていたので、ちょうど良い機会と思い、単語頻度分析の自製に取り掛かりました。