BLOGTIMES
2020/11/16

さくらのレンタルサーバのスパムフィルタをチューニングする

  sakura  antispam 
このエントリーをはてなブックマークに追加

さくらのレンタルサーバの SpamAssassin のベイジアンはデフォルトではあまり賢くないので、sa-learn*1 を使って学習させてみました。
さくらのレンタルサーバはほとんどの作業がウェブのコントロールパネルから実行できるようになっていますが、これについては ssh でターミナルから作業するしかないと思います。

作業方法

用意するものは、spam メールspam でないメール(spam と対応させて ham と呼ばれます) の .eml ファイルを沢山用意しておきます。メーラーから Export しなくてもサーバ上にファイルが残っているのであればサーバ上のディレクトリを使うこともできます。例えば ~/MailBox/(ユーザー名)/maildir/cur や ~/MailBox/(ユーザー名)/maildir/new などにあるファイルを使うこともできます。これらのファイルには拡張子がついていませんが、中身は .eml と同じものです。

あとは sa-learn で以下のようなコマンドを実行するだけです。
(./spam や ./ham はメールが実際に入っているディレクトリに読み替えてください。)

sa-learn --spam --no-sync --progress ./spam sa-learn --ham --no-sync --progress ./ham sa-learn --sync

今回はそれぞれ2万件ずつ学習させたので、かなり良い精度で spam 判定できるようになりました。


トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/12110
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form

OpenID を使ってログインすることができます。

Identity URL: Yahoo! JAPAN IDでログイン