- blogs:
- cles::blog
Solr1.4-devとcmecab-java
最近Solrでつくる検索サーバーが個人的にちょっとホットなので、自分でも環境構築をしてみました。
Solr 1.3で日本語の形態素解析に基づくインデックスを作りたい場合senのダウンロードページにあるlucene-ja-2.0test2.zipからlucene-ja.jarとsen.jarを取り出してlibに配置し、schema.xmlに下記を追加するように指示*1している場合が多いようです。
<analyzer class="org.apache.lucene.analysis.ja.JapaneseAnalyzer"/>
</fieldType>
今回は最新の開発版であるSolr 1.4を入れてみたので、同様の方法を試したところエラーが出てうまく動かす事が出来ませんでした。仕方が無いので、なにか使えるのもが他にないかと探してみたところ、cmecab-javaというMeCabのJNIバインディングのプロジェクトに下記のようなリリースノートを見つけました。
ReleaseNote - cmecab-java - リリースノート - Google Code
v1.6 (2009/5/25)
* Solr 1.4向けに、CharStreamに対応した一連のTokenizer, TokenizerFactoryを追加。
* パフォーマンス向上が見られないため、Pooled系のTokenizerを廃止。
* senにバッファオーバーフロー防止パッチを当てたものを同梱。
これを使う場合にはcmecab-(ver).jar、protobuf-java-2.1.0.jar、sen.jarをlibに配置し、schema.xmlには使用方法の解説にあるとおり、下記の内容を書き加えます。
<fieldType name="text_sen" class="solr.TextField">
<analyzer>
<!-- confFileパラメータには、Senの設定ファイル(sen.xml)のパスを指定 -->
<tokenizer class="net.moraleboost.solr.SenTokenizerFactory" confFile="/etc/sen/sen.xml" />
</analyzer>
</fieldType>
これでうまく動かす事ができるようになりました。
それにしてもSolrはよくできていますね。ファセットカウントが簡単に出せたりとか、絞り込みができたりとか。以前、JavaからLuceneを使ってインデックスを作る作業をしたことがあるのですが、そのときにはこのようなインデックスサーバが簡単にできるようになるとは思ってもみなかったなぁ。
このエントリへのTrackbackにはこのURLが必要です→http://blog.cles.jp/item/3100
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
sp-20100319174559644595555@cles.net
- cmecab-java SEN
- Google - 10/03/15 10:04:08
- Solr1.4 Tokenizer
- Google - 10/03/14 19:19:22
- sen cmecab-java
- Google - 10/03/11 19:45:29
- solr ファセット
- Google - 10/03/11 05:30:11
- SenTokenizerFactory
- Google - 10/03/10 18:36:38
- cmecab-java solr
- Google - 10/02/26 19:40:34
- Solr JapaneseAnalyzer sen.xml
- Google - 10/02/24 19:29:34
- CMECAB
- Google - 10/02/17 14:39:51
- おめでとうございます (4)
- 知恵の輪 サターン編 (3)
- SourceForge.JPのSubversion... (3)
- サーバセットアップ (3)
- 和食 小錦 (3)
- .inはインドのccTLDなのか (3)
- 散髪しました (3)
- やっと髪をきりました (3)
- Waterfallプロセスに返れ? (3)
- 大雪でした (3)
2 . やっぱりあった!パクれる読書感想文! [7600x]
3 . Echofon for Firefox [6378x]
4 . OpenIDで自分のサイトのURLを使う [5739x]
5 . 急性胃腸炎 [5728x]
- CD-ROM起動で、HDDを完全消去
- NP_Moblog v1.16
- pinzoro 01/15
- hsur 12/29
- and more...
- 耳がおかしいと思ったら突発..
- baca 01/13
- hsur 01/13
- and more...
★はてな認証APIをつかってログインすることができます。




