nlp - cles::blog

blogs:
cles::blog
NP_cles()

» ArchiveList (Tag for "nlp"

)

«Prev || 1 · 2 · | Next»

2017/03/06

国語研が258億語の日本語コーパス「梵天」を公開

nlp

dataset

国語研日本語ウェブコーパス梵天 - 国語研が258億語の日本語コーパス「梵天」を公開

国立国語研究所がのべ38.8億文の258億語で構築したコーパスを公開するようなのでメモ。

国語研日本語ウェブコーパス (NWJC)

一般公開版は文字列検索のみ可能なのに対し、高機能版は品詞列検索・係り受け検索、インデックス情報のダウンロードが可能なようですが、一般的なPCのリテラシーがあり、国語研のコーパス検索システム「中納言」について半年以上の利用経験があり、国語研が開催する検索系「梵天」講習会に参加という条件を満たした場合にのみ申し込みが可能なようです。

258億語の日本語コーパスをウェブで公開～国立国語研究所 -INTERNET Watch

NWJCは、2014年10～12月にインターネット上で8399万2556のURLから収集した258億3694万7421のコーパスを収録。文数では14億6314万2939、のべ文数は38億8588万9575に上るデータが格納されている。

日付が変わって公開されていたので、ちょっと使ってみましたが、当時のブログが大量に格納されているようです。スパムっぽいものも結構入っているようですが、なかなか面白そうです。

at 23:55 |

2015/07/11

User Local の簡易なテキストマイニングツール

nlp

ユーザーローカルが自分の Twitter やテキストファイルなどの共起関係やワードクラウド、頻出単語を名詞、動詞、形容詞ごとにリストアップしてくれるサービスを始めたようです。

ユーザーローカルテキストマイニング

テキストファイルの解析では、アンケートの自由回答や、くちコミデータなどのテキスト情報を解析し、よく出現する単語や特徴語を抽出することができます。Twitterの解析では、普段発言している内容や、お気に入りツイートを解析することが可能です。

技術的にはそれほど高度な内容ではないので、自分で NLP のツールが使える人には用がなさそうです。

at 23:23 |

2013/08/06

gosen をコンパイルしてみる

solr

nlp

java

Solr の形態素解析器としてよく使われている lucene-gosen^*1 の gosen の部分だけを動かしてみたかったのでコンパイルをしてみました。ちょっと古いプロダクトなのでハマり所が随所にあります。

以下、作業メモ。

[gosen をコンパイルしてみるの続きを読む]

^*1: lucene-gosen - Japanese analysis for Apache Lucene/Solr 3.6 and 4.4 - Google Project Hosting

at 17:42 |

2012/04/11

lucene-gosen を試してみる

java

nlp

programming

ちょっと Java で形態素解析をしたくなったので、Java製形態素解析ライブラリ「lucene-gosen」を試してみるを参考にlucene-gosenを動かしてみました。Senのときは辞書は自分でコンパイルしなければなりませんでしたが、こちらはlucene-gosen-2.0.0-naist-chasen.jar や lucene-gosen-2.0.0-ipadic.jar のようにあらかじめ辞書を内包している jar が公開されているので動かすのはかなり楽です。

今回は単純に単語に区切りを入れられれば OK だったので、書いたのはこんな感じの簡単なプログラムでした。

AppMain.java

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;

import net.java.sen.SenFactory;
import net.java.sen.StringTagger;
import net.java.sen.dictionary.Token;

public class AppMain {
	public static void main(String[] args) {
		StringTagger tagger = SenFactory.getStringTagger(null);
		try {
			List<Token> list = new ArrayList<Token>();
			BufferedReader reader = new BufferedReader(new InputStreamReader(System.in));

			String line;
			while *1 != null && !line.isEmpty()) {
				list = tagger.analyze(line, list);
				for (Token token : list) {
					System.out.print(token.getSurface() + " ");
				}
				System.out.println();
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

動作例

すもももももももものうち
すもも も もも も もも の うち

^*1: line = reader.readLine(

at 22:43 |

2009/10/08

Solr 1.4 Enterprise Search Server

solr

nlp

java

ruby

Solrについての情報収集については、基本的にSolrプロジェクトのWikiと、実際のSolrや、Solr-rubyのソースコードですませています。

が、そろそろ紙の本が1冊欲しくなってきて、Amazonで探してみたところ、洋書ですがSolr 1.4 Enterprise Search Serverという本が出ているのを発見。マニュアル代わりに買っておこうかな。

at 20:23 |

2009/06/29

Solr1.4-devとcmecab-java

nlp

java

solr

最近Solrでつくる検索サーバーが個人的にちょっとホットなので、自分でも環境構築をしてみました。

Solr 1.3で日本語の形態素解析に基づくインデックスを作りたい場合senのダウンロードページにあるlucene-ja-2.0test2.zipからlucene-ja.jarとsen.jarを取り出してlibに配置し、schema.xmlに下記を追加するように指示^*1している場合が多いようです。

<fieldType name="text_sen" class="solr.TextField">
  <analyzer class="org.apache.lucene.analysis.ja.JapaneseAnalyzer"/>
</fieldType>

今回は最新の開発版であるSolr 1.4を入れてみたので、同様の方法を試したところエラーが出てうまく動かす事が出来ませんでした。仕方が無いので、なにか使えるのもが他にないかと探してみたところ、cmecab-javaというMeCabのJNIバインディングのプロジェクトに下記のようなリリースノートを見つけました。

[Solr1.4-devとcmecab-java の続きを読む]

^*1: 日本語形態素解析器Senを導入するその2 lucene-jaのインストール - Solr, Python, MacBook Air

at 21:32 |

2009/06/04

Yahoo!のAPIで特徴語抽出が可能に

nlp

YahooAPI

Yahoo!のテキスト解析APIにテキストからの特徴語を抽出する機能が追加されたようです。

Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出

日本語文を解析し、特徴的な表現（キーフレーズ）を抽出します。

これまでNP_MetaTagsの特徴語抽出は、Yahoo!の形態素解析の結果を自前でTF-IDFを使って処理していましたが、このAPIを使えば一撃で特徴語を抽出することができるようになります。特徴語は重要度が高い順に最大２０個とれるようです。特徴語はドキュメントの母集団によって抽出される語が変化しますが、一般的な特徴語を抽出したい場合にはこのAPIは手軽に使えるのでいいですね。

at 21:58 |

2008/08/20

日本語係り受け解析APIが公開に

yahoo

nlp

Yahoo!Japanのテキスト解析APIに日本語係り受け解析Webサービスと指定形容詞係り先検索Webサービスが追加されていました。

Yahoo!デベロッパーネットワーク

テキスト解析Webサービスで日本語係り受け解析と指定形容詞係り先検索をご利用いただけるようになりました

テキスト解析Webサービスでは、日本語文の係り受け関係を解析する「日本語係り受け解析Webサービス」と、指定した形容詞が係る名詞句群を返す「指定形容詞係り先検索Webサービス」を提供しています。

容詞係り先検索とかうまく使うと、ある事柄に対する評判の検索とか作れたりするようになるのかも知れませんけど、形態素解析と違って、処理結果をかなり2次的に加工しないといけないので使いどころが難しくなってきますね。

at 22:34 |

2008/05/27

Y!がVJEをAPI化

yahoo

nlp

inputmethod

Yahoo!デベロッパーネットワークのテキスト解析APIにかな漢字変換Webサービスが追加されました。
その名の通り、かなを送ると漢字変換して返してくれるAPIです。

変換エンジンは往年のVJEを使っているようです。

ヤフー、かな漢字変換Webサービスを公開--MS-DOS時代に全盛の「VJE」をAPI化:ニュース - CNET Japan

今回公開されたかな漢字変換Webサービスは、日本語入力プログラム「VJE」（VACS Japanese Entry）をAPI化した。VJEは、もともとバックスが開発したプログラムで、MS-DOS全盛の時代には強い支持を受けたプログラムだ。（中略）かな漢字変換Webサービスは、ローマ字入力、かな入力に対応し、携帯電話などで活用されている推測変換機能も備える。また、人名や地名、顔文字、郵便番号の変換もできる。基本辞書は月に一度更新される。

VJEが活躍したのはかな漢字変換がFEP^*1って呼ばれていた頃の話なので、いまどきVJEっていって分かる人はほとんどいないとおもいますが、現在も販売されているATOKなどと並んで名の通ったかな漢字変換でした。あとは松茸とかEGBridgeなんていうのもありましたね。そのころ僕はATOK使っていたことを思い出します。

ちょっと使いどころが難しいAPIですが、面白い使い方を考えてみるのも楽しいかもしれません。古いソフトでもAPI化することで、また新たなソフトとして生まれ変わることができるといういい例になるといいなと思います。

^*1: フェップ。Front-end Processorの略。当時はOSがシングルタスクだったので、アプリの前処理という意味でそう呼ばれていた。

at 19:00 |

2007/07/01

Yahoo!APIで特徴語抽出を作る

YahooAPI

nlp

NP_MetaTagsではmetaタグのkeywordsを記事の本文から特徴後を抽出して自動的に生成する機能があり、これはBulkfeedsの特徴語抽出APIを使わせてもらっていました。ところが、このところBulkfeedsが落ちたままなので別の方法で特徴語抽出ができる方法がないか探してみました。

[を] 形態素解析と検索APIとTF-IDFでキーワード抽出