spam判定をするためにはどれくらい学習が必要なのかというのは良くわかりませんが、参考までに僕のところではどれくらい学習させているか管理画面のスクリーンショットを掲載しておきます。
spamというのがspamであるデータに含まれる単語。hamというのがspamでないデータに含まれる単語をあらわしていて、それぞれの単語が含まれる確率を用いてspamであるかどうかを判断します。これらのデータは自分で投入することもできますがNP_SpamBayesでは簡単にフィルタを賢くできるような機能が備わっています。
例えば、ブロックしたトラックバック*1を元にspamであることを学習させることができます。また、公開されているコメント*2や公開されているトラックバック*3を元にspamでないことを学習させることもできます。
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。