BLOGTIMES
2013/08/06

gosen をコンパイルしてみる

  solr  nlp  java 
このエントリーをはてなブックマークに追加

ReadingProcessorDemo - gosen をコンパイルしてみる

Solr の形態素解析器としてよく使われている lucene-gosen*1gosen の部分だけを動かしてみたかったのでコンパイルをしてみました。ちょっと古いプロダクトなのでハマり所が随所にあります。

以下、作業メモ。

gosen 本体のビルド

まずは gosen 本体をビルドします。svn からチェックアウトして、ant を呼び出せば OK。
ここまでは jdk や ant がインストールされている環境であればすんなりクリア出来ると思います。

svn co https://itadaki.svn.sourceforge.net/svnroot/itadaki/GoSen gosen cd gosen ant

ipadic のビルド

次に形態素解析に使われる辞書 ipadic をビルドします。

build.xml に ipadic の辞書の位置が記述されているので、本来は ant を起動すれば自動的に辞書ができるはずなのですが、既に URL が無効になっているので自分で ipadic をダウンロードしています。2.6.0 以外のバージョンをビルドしたい場合には build.xml のバージョンの指定の部分を書き換える必要があります。また、2.7.0 の辞書をコンパイルしたい場合には zip ファイル内にある connect.cha を書き換える必要がある*2ことにも注意が必要です。

cd testdata/dictionary wget http://jaist.dl.sourceforge.jp/ipadic/24431/ipadic-2.6.0.tar.gz ant

サンプルを起動してみる

辞書がビルド出来たらサンプルを起動することができます。
examples に CUI の StringTaggerDemo や GUI の ReadingProcessorDemo を起動してみると動作が理解しやすいと思います。

cd ../.. # CUI のデモ java -cp bin examples.StringTaggerDemo ./testdata/dictionary/dictionary.xml Please input Japanese sentence: 今日は晴れです 今日 (今日) 名詞-副詞可能(0,2,2) キョウ キョー は (は) 助詞-係助詞(2,3,1) ハ ワ 晴れ (晴れ) 名詞-一般(3,5,2) ハレ ハレ です (です) 助動詞(5,7,2) デス デス # GUI のデモ java -cp bin examples.ReadingProcessorDemo ./testdata/dictionary/dictionary.xml

トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/6025
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form

コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。

OpenID を使ってログインすることができます。

Identity URL: Yahoo! JAPAN IDでログイン