- blogs:
- cles::blog

国語研が258億語の日本語コーパス「梵天」を公開


国立国語研究所がのべ38.8億文の258億語で構築したコーパスを公開するようなのでメモ。
一般公開版は文字列検索のみ可能なのに対し、高機能版は品詞列検索・係り受け検索、インデックス情報のダウンロードが可能なようですが、一般的なPCのリテラシーがあり、国語研のコーパス検索システム「中納言」について半年以上の利用経験があり、国語研が開催する検索系「梵天」講習会に参加という条件を満たした場合にのみ申し込みが可能なようです。
258億語の日本語コーパスをウェブで公開~国立国語研究所 -INTERNET Watch
NWJCは、2014年10~12月にインターネット上で8399万2556のURLから収集した258億3694万7421のコーパスを収録。文数では14億6314万2939、のべ文数は38億8588万9575に上るデータが格納されている。
日付が変わって公開されていたので、ちょっと使ってみましたが、当時のブログが大量に格納されているようです。スパムっぽいものも結構入っているようですが、なかなか面白そうです。

User Local の簡易なテキストマイニングツール

ユーザーローカルが自分の Twitter やテキストファイルなどの共起関係やワードクラウド、頻出単語を名詞、動詞、形容詞ごとにリストアップしてくれるサービスを始めたようです。
テキストファイルの解析では、アンケートの自由回答や、くちコミデータなどのテキスト情報を解析し、よく出現する単語や特徴語を抽出することができます。Twitterの解析では、普段発言している内容や、お気に入りツイートを解析することが可能です。
技術的にはそれほど高度な内容ではないので、自分で NLP のツールが使える人には用がなさそうです。

gosen をコンパイルしてみる



Solr の形態素解析器としてよく使われている lucene-gosen*1 の gosen の部分だけを動かしてみたかったのでコンパイルをしてみました。ちょっと古いプロダクトなのでハマり所が随所にあります。
以下、作業メモ。
[gosen をコンパイルしてみる の続きを読む]
lucene-gosen を試してみる



ちょっと Java で形態素解析をしたくなったので、Java製形態素解析ライブラリ「lucene-gosen」を試してみるを参考にlucene-gosenを動かしてみました。Senのときは辞書は自分でコンパイルしなければなりませんでしたが、こちらはlucene-gosen-2.0.0-naist-chasen.jar や lucene-gosen-2.0.0-ipadic.jar のようにあらかじめ辞書を内包している jar が公開されているので動かすのはかなり楽です。
今回は単純に単語に区切りを入れられれば OK だったので、書いたのはこんな感じの簡単なプログラムでした。
AppMain.java
動作例
- *1: line = reader.readLine(

Solr 1.4 Enterprise Search Server




Solrについての情報収集については、基本的にSolrプロジェクトのWikiと、実際のSolrや、Solr-rubyのソースコードですませています。
が、そろそろ紙の本が1冊欲しくなってきて、Amazonで探してみたところ、洋書ですがSolr 1.4 Enterprise Search Serverという本が出ているのを発見。マニュアル代わりに買っておこうかな。

Solr1.4-devとcmecab-java



最近Solrでつくる検索サーバーが個人的にちょっとホットなので、自分でも環境構築をしてみました。
Solr 1.3で日本語の形態素解析に基づくインデックスを作りたい場合senのダウンロードページにあるlucene-ja-2.0test2.zipからlucene-ja.jarとsen.jarを取り出してlibに配置し、schema.xmlに下記を追加するように指示*1している場合が多いようです。
今回は最新の開発版であるSolr 1.4を入れてみたので、同様の方法を試したところエラーが出てうまく動かす事が出来ませんでした。仕方が無いので、なにか使えるのもが他にないかと探してみたところ、cmecab-javaというMeCabのJNIバインディングのプロジェクトに下記のようなリリースノートを見つけました。
[Solr1.4-devとcmecab-java の続きを読む]
Yahoo!のAPIで特徴語抽出が可能に


Yahoo!のテキスト解析APIにテキストからの特徴語を抽出する機能が追加されたようです。
Yahoo!デベロッパーネットワーク - テキスト解析 - キーフレーズ抽出
日本語文を解析し、特徴的な表現(キーフレーズ)を抽出します。
これまでNP_MetaTagsの特徴語抽出は、Yahoo!の形態素解析の結果を自前でTF-IDFを使って処理していましたが、このAPIを使えば一撃で特徴語を抽出することができるようになります。特徴語は重要度が高い順に最大20個とれるようです。特徴語はドキュメントの母集団によって抽出される語が変化しますが、一般的な特徴語を抽出したい場合にはこのAPIは手軽に使えるのでいいですね。

日本語係り受け解析APIが公開に


Yahoo!Japanのテキスト解析APIに日本語係り受け解析Webサービスと指定形容詞係り先検索Webサービスが追加されていました。
テキスト解析Webサービスで日本語係り受け解析と指定形容詞係り先検索をご利用いただけるようになりました
テキスト解析Webサービスでは、日本語文の係り受け関係を解析する「日本語係り受け解析Webサービス」と、指定した形容詞が係る名詞句群を返す「指定形容詞係り先検索Webサービス」を提供しています。
容詞係り先検索とかうまく使うと、ある事柄に対する評判の検索とか作れたりするようになるのかも知れませんけど、形態素解析と違って、処理結果をかなり2次的に加工しないといけないので使いどころが難しくなってきますね。

Y!がVJEをAPI化



Yahoo!デベロッパーネットワークのテキスト解析APIにかな漢字変換Webサービスが追加されました。
その名の通り、かなを送ると漢字変換して返してくれるAPIです。
変換エンジンは往年のVJEを使っているようです。
ヤフー、かな漢字変換Webサービスを公開--MS-DOS時代に全盛の「VJE」をAPI化:ニュース - CNET Japan
今回公開されたかな漢字変換Webサービスは、日本語入力プログラム「VJE」(VACS Japanese Entry)をAPI化した。VJEは、もともとバックスが開発したプログラムで、MS-DOS全盛の時代には強い支持を受けたプログラムだ。(中略)かな漢字変換Webサービスは、ローマ字入力、かな入力に対応し、携帯電話などで活用されている推測変換機能も備える。また、人名や地名、顔文字、郵便番号の変換もできる。基本辞書は月に一度更新される。
VJEが活躍したのはかな漢字変換がFEP*1って呼ばれていた頃の話なので、いまどきVJEっていって分かる人はほとんどいないとおもいますが、現在も販売されているATOKなどと並んで名の通ったかな漢字変換でした。あとは松茸とかEGBridgeなんていうのもありましたね。そのころ僕はATOK使っていたことを思い出します。
ちょっと使いどころが難しいAPIですが、面白い使い方を考えてみるのも楽しいかもしれません。古いソフトでもAPI化することで、また新たなソフトとして生まれ変わることができるといういい例になるといいなと思います。
- *1: フェップ。Front-end Processorの略。当時はOSがシングルタスクだったので、アプリの前処理という意味でそう呼ばれていた。

Yahoo!APIで特徴語抽出を作る


NP_MetaTagsではmetaタグのkeywordsを記事の本文から特徴後を抽出して自動的に生成する機能があり、これはBulkfeedsの特徴語抽出APIを使わせてもらっていました。ところが、このところBulkfeedsが落ちたままなので別の方法で特徴語抽出ができる方法がないか探してみました。
[を] 形態素解析と検索APIとTF-IDFでキーワード抽出
目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大きいほどその単語が代表キーワードっぽいということでよろしく。)
たつをさんの上記のページを見る限りでは精度はともかく簡単なものであればすぐにできそうです。当時はYahooに形態素解析APIがなかったので、ローカルで茶筅なり、MeCabを使う必要がありましたが、今は全てYahoo!APIだけで全て完結できますね。
[Yahoo!APIで特徴語抽出を作る の続きを読む]- Rufus Windows11 インストーラカスタム
- Rufus に Windows のインストールをカスタマイズできる機能がついてた
- Rufus Windows11 インストーラカスタム
- Rufus に Windows のインストールをカスタマイズできる機能がついてた
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110922)
3 . 年次の人間ドックへ(110486)
4 . 2023 年分の確定申告完了!(1つめ)(110034)
5 . 三菱鉛筆がラミーを買収(109934)
Academic[574]
Book[155]
Diary[522]
Disaster[101]
Foodlogue[1425]
Game[284]
Goods[805]
Healthcare[341]
Hobby[32]
IT[1195]
Military[343]
misc.[1570]
Mobile[510]
Music[38]
Neta[106]
News[95]
Photo[391]
RealEstate[120]
Security[1178]
SEO Contest[36]
Software[634]
Tips[1886]
Travelogue[1238]
Web[675]
Work[193]