BLOGTIMES
2012/04/11

lucene-gosen を試してみる

  java  nlp  programming 
このエントリーをはてなブックマークに追加

ちょっと Java で形態素解析をしたくなったので、Java製形態素解析ライブラリ「lucene-gosen」を試してみるを参考にlucene-gosenを動かしてみました。Senのときは辞書は自分でコンパイルしなければなりませんでしたが、こちらはlucene-gosen-2.0.0-naist-chasen.jar や lucene-gosen-2.0.0-ipadic.jar のようにあらかじめ辞書を内包している jar が公開されているので動かすのはかなり楽です。

今回は単純に単語に区切りを入れられれば OK だったので、書いたのはこんな感じの簡単なプログラムでした。

AppMain.java

import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.List; import net.java.sen.SenFactory; import net.java.sen.StringTagger; import net.java.sen.dictionary.Token; public class AppMain { public static void main(String[] args) { StringTagger tagger = SenFactory.getStringTagger(null); try { List<Token> list = new ArrayList<Token>(); BufferedReader reader = new BufferedReader(new InputStreamReader(System.in)); String line; while *1 != null && !line.isEmpty()) { list = tagger.analyze(line, list); for (Token token : list) { System.out.print(token.getSurface() + " "); } System.out.println(); } } catch (IOException e) { e.printStackTrace(); } } }

動作例

すもももももももものうち すもも も もも も もも の うち
  • *1: line = reader.readLine(

トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/4888
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form

コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。

OpenID を使ってログインすることができます。

Identity URL: Yahoo! JAPAN IDでログイン