- blogs:
- cles::blog
2012/04/11

lucene-gosen を試してみる



ちょっと Java で形態素解析をしたくなったので、Java製形態素解析ライブラリ「lucene-gosen」を試してみるを参考にlucene-gosenを動かしてみました。Senのときは辞書は自分でコンパイルしなければなりませんでしたが、こちらはlucene-gosen-2.0.0-naist-chasen.jar や lucene-gosen-2.0.0-ipadic.jar のようにあらかじめ辞書を内包している jar が公開されているので動かすのはかなり楽です。
今回は単純に単語に区切りを入れられれば OK だったので、書いたのはこんな感じの簡単なプログラムでした。
AppMain.java
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import net.java.sen.SenFactory;
import net.java.sen.StringTagger;
import net.java.sen.dictionary.Token;
public class AppMain {
public static void main(String[] args) {
StringTagger tagger = SenFactory.getStringTagger(null);
try {
List<Token> list = new ArrayList<Token>();
BufferedReader reader = new BufferedReader(new InputStreamReader(System.in));
String line;
while *1 != null && !line.isEmpty()) {
list = tagger.analyze(line, list);
for (Token token : list) {
System.out.print(token.getSurface() + " ");
}
System.out.println();
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
動作例
すもももももももものうち
すもも も もも も もも の うち
- *1: line = reader.readLine(
トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/4888
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
サイト内検索
検索ワードランキング
へぇが多いエントリ
閲覧数が多いエントリ
1 . アーロンチェアのポスチャーフィットを修理(112136)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110779)
3 . 年次の人間ドックへ(110375)
4 . 2023 年分の確定申告完了!(1つめ)(109921)
5 . 三菱鉛筆がラミーを買収(109822)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110779)
3 . 年次の人間ドックへ(110375)
4 . 2023 年分の確定申告完了!(1つめ)(109921)
5 . 三菱鉛筆がラミーを買収(109822)
cles::blogについて
Referrers