- blogs:
- cles::blog
つばめグリル 銀座通り本店
洋食 本当は別のお目当てがあったのですが、そちらがダメだったのでつばめグリルでディナー。
品川に住んでいて、仕事も品川だったころは、品川駅前のつばめグリルでよくランチをしていましたが、それからずっとご無沙汰でした。ということで、久しぶりにつばめ風ハンブルグをオーダーしてみました。あれからもう、4年も経つわけですか。。。。。
[つばめグリル 銀座通り本店 の続きを読む]
これくらい学習させてます
NP_SpamBayes spam判定をするためにはどれくらい学習が必要なのかというのは良くわかりませんが、参考までに僕のところではどれくらい学習させているか管理画面のスクリーンショットを掲載しておきます。

spamというのがspamであるデータに含まれる単語。hamというのがspamでないデータに含まれる単語をあらわしていて、それぞれの単語が含まれる確率を用いてspamであるかどうかを判断します。これらのデータは自分で投入することもできますがNP_SpamBayesでは簡単にフィルタを賢くできるような機能が備わっています。
例えば、ブロックしたトラックバック*1を元にspamであることを学習させることができます。また、公開されているコメント*2や公開されているトラックバック*3を元にspamでないことを学習させることもできます。
- *1: 「Train spam with all NEW blocked trackbacks.」の部分
- *2: 「Train HAM (not spam) with all NEW comments」の部分
- *3: 「Train HAM (not spam) with all NEW trackbacks.」の部分
NP_SpamBayesJP jp1b
NP_SpamBayes
YahooAPI 迷惑メール振り分け技術として良く使われているベイジアンフィルタを用いたspam避けプラグインです。きちんと学習させればおそらく最強のspam対策プラグインであることは間違いないと思います。
反響が予想以上に大きかったので、さっくりと作ってしまいました。もともとローカルのMecabを使って形態素解析をしていたのですが、この部分を誰もが導入可能なようにごっそりとYahoo!のウェブサービスに置き換えたものです。
† あくまでベータ版です
とりあえず動作可能*1ではありますが、あくまで人柱版という位置づけです。
技術的な問題に関しては積極的に対応していきますが、それ以外のサポートはあまりする予定がありません。また、日本語はきちんと処理できますがインタフェイスは英語のままです。
[NP_SpamBayesJP v1.1.0 jp1.6b][645clicks]
SHA1: f37dd0e0f1546ac62f7b96dcd2063770df8ee10e
管理画面を日本語化したNP_SpamBayesJP jp2をリリースしています。
※使い方についてはplugins:spambayesjp[Nucleus CMS Japan Wiki]にまとめる予定です。
動作確認はNucleus 3.3(UTF-8)、PHP 4.4.7環境で行っています。
動作確認報告、バグ報告はこのエントリへ、コメント・トラックバックをお願いします。
- *1: うちのサイトではMecab版を半年以上運用して有効性は確認してあります
Yahoo!から形態素解析APIがリリース
NP_SpamBayes
YahooAPI
integration 捜し求めていた形態素解析のウェブサービスがYahoo!からリリースされました。
Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析
日本語形態素解析Webサービス
日本語文を形態素に分割し、品詞、読みがなの付与、統計情報を取得できる機能を提供します。
これで最強のspam対策プラグインNP_SpamBayes日本語対応版を自宅(専用)サーバ以外の環境の人にもをお届けできるんじゃないかと思います。
これについては早速開発にとりかかろうと思います。NP_ReCaptchaと同じ轍を踏むわけにはいかないので。
reCAPTCHAプラグインを作ってみた
NP_ReCaptchaJP 以前にちょっと調べて作りかけだったreCAPTCHAプラグインを完成させてみました。これは自分のサーバー上でGDを使わないのでGDが使えないサーバでも利用することができますし、GDが使えるサーバでも負荷の軽減になります。
で、一人で喜んでいたんですが、そこに罠が待っていました。
reCAPTCHA Resourcesを見ると先日まで存在していなかったNucleus用のプラグインがいつのまにかリストされていました。混同しないように自分のプラグインはNP_ReCaptchaJPとしましたが、もう公開する必要はないかもしれませんね。ちょっとショックです。。。。。。。
いちおうAkismetの時のように導入チュートリアルとか書くと嬉しい人とか多いのかなぁ。
GoogleがURLブラックリストAPIを公開
blacklist GoogleがURLブラックリストについてのAPIを公開したようです。
ITmedia エンタープライズ:Google、URLブラックリストを利用できるAPI提供
米Googleは6月18日、同社のURLブラックリストを利用できる「Safe Browsing API」の提供を開始した。このAPIは、Googleが収集した不審なURLと不正なURLのブラックリストをダウンロードするシンプルなメカニズムを提供する。開発者は自分の製品でGoogleのブラックリストを利用できるようになる。
サイトはGoogle Safe Browsing APIで見れるようです。
ということで、これが何かに使えないかちょっと調べておきたいと思います。
審査委員をお願いに
doctoral 非常勤の帰りに大学に少し寄って、某先生に学位審査委員会の委員への就任をお願いをして快諾をいただいてきました。その後、すっかりご無沙汰だった副査の先生にも後期にお世話になる旨をご挨拶。「もう1本くらい論文を通しておくと揉めないんだけどなぁ」と釘を刺されてしまったので、「もちろんもう一本投稿準備をしてるんですよ。」という予定通りのトークでかわしてみました。
そんな大したことではないはずなのに、どっと疲れました。
[審査委員をお願いに の続きを読む]
PCが壊れた
dell
failure と、いっても会社のDELL PCなんですけど。
どうやらビデオ周りのソフトウェアもしくはハードウェアのどこかが壊れたらしく、実機のディスプレイでも、VNCでも黒い横筋が入りまくっていて、解像度を上げるとブルースクリーンになるという症状。
サーバ用でないマシンをほぼ2年間電源入れっぱなしで使っているのでまぁ仕方ないというところもあるんですが、今週後半から一年間でも最も忙しいシーズンを迎えるのでそこにぶち当たらなかったのが不幸中の幸いでした。なんとかバックアップを取って予備機に切り替えることができました。
memory_limitは気休め?
php php.iniには実行時に使うことを許すメモリの量を設定するためにmemory_limitというパラメータがあります。もしこの制限を越えるとスクリプトはエラーを吐いて停止しますが、下記のようにini_set()を使って回避できるという話をを見つけました。
そんな強制力のないリソース制限があるものなのかと思っていろいろ調べてみたら、本当に変更の可否がPHP_INI_ALLになっていました。共用サーバなんかはこれでリソース制限している場合も結構あると思うんですが、意外とザルなのかもしれません。
というか、こんなに変更が簡単ということは気休め程度っていうことなのかなぁ。php.iniには特定のディレクティブをReadOnlyにするための設定なんてあったかなぁ。
NP_Paint v1.16
NP_Paint プラグインオプションで設定できるテンプレートの変数を調整しました。その他軽微なバグ修正を行っていますが、現状で特に不具合が出ていなければアップグレードは必須ではありません。v1.15からのアップグレードはファイルの上書きのみで可能になっています。
[NP_Paint v1.16 (UTF-8&EUC対応)][369clicks]
SHA1: 782b87bb9c953acf2f191f0697fcd6036665ef5b
Bugfix版のNP_Paint v1.17をリリースしています。
※インストール等は付属のNP_Paintヘルプを参考にしてください。
動作確認はNucleus 3.3(UTF-8)、PHP 4.4.7環境で行っています。
動作確認報告、バグ報告はこのエントリへ、コメント・トラックバックをお願いします。
- 換気口に風よけカバーを設置 (2)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(1396)
3 . シャープの空気清浄加湿器のキュルキュル音対策は PTFE テープで(1248)
4 . GitHub が全ての公開リポジトリへのシークレットスキャンを有効に(1125)
5 . 国分生協病院のランサムウェア被害は認証がない RDP が原因?(1081)
Academic[574]
Book[155]
Diary[522]
Disaster[101]
Foodlogue[1425]
Game[284]
Goods[805]
Healthcare[341]
Hobby[32]
IT[1195]
Military[343]
misc.[1570]
Mobile[510]
Music[38]
Neta[106]
News[95]
Photo[391]
RealEstate[120]
Security[1178]
SEO Contest[36]
Software[634]
Tips[1886]
Travelogue[1238]
Web[675]
Work[193]
