- blogs:
- cles::blog
2012/04/11
lucene-gosen を試してみる
java
nlp
programming
ちょっと Java で形態素解析をしたくなったので、Java製形態素解析ライブラリ「lucene-gosen」を試してみるを参考にlucene-gosenを動かしてみました。Senのときは辞書は自分でコンパイルしなければなりませんでしたが、こちらはlucene-gosen-2.0.0-naist-chasen.jar や lucene-gosen-2.0.0-ipadic.jar のようにあらかじめ辞書を内包している jar が公開されているので動かすのはかなり楽です。
今回は単純に単語に区切りを入れられれば OK だったので、書いたのはこんな感じの簡単なプログラムでした。
AppMain.java
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import net.java.sen.SenFactory;
import net.java.sen.StringTagger;
import net.java.sen.dictionary.Token;
public class AppMain {
public static void main(String[] args) {
StringTagger tagger = SenFactory.getStringTagger(null);
try {
List<Token> list = new ArrayList<Token>();
BufferedReader reader = new BufferedReader(new InputStreamReader(System.in));
String line;
while *1 != null && !line.isEmpty()) {
list = tagger.analyze(line, list);
for (Token token : list) {
System.out.print(token.getSurface() + " ");
}
System.out.println();
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
動作例
すもももももももものうち
すもも も もも も もも の うち
- *1: line = reader.readLine(
トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/4888
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
サイト内検索
検索ワードランキング
へぇが多いエントリ
閲覧数が多いエントリ
1 . svn でコミットしたらエラーが出たので(866)
2 . RT810 の DHCP サーバを WPAD に対応させる(734)
3 . アーロンチェアのポスチャーフィットを修理(697)
4 . 福岡銀がデマの投稿者への刑事告訴を検討中(672)
5 . シャープの空気清浄加湿器のキュルキュル音対策は PTFE テープで(599)
2 . RT810 の DHCP サーバを WPAD に対応させる(734)
3 . アーロンチェアのポスチャーフィットを修理(697)
4 . 福岡銀がデマの投稿者への刑事告訴を検討中(672)
5 . シャープの空気清浄加湿器のキュルキュル音対策は PTFE テープで(599)
cles::blogについて
Referrers