BLOGTIMES
2017/03/06

国語研が258億語の日本語コーパス「梵天」を公開

  nlp  dataset 
このエントリーをはてなブックマークに追加

国語研日本語ウェブコーパス 梵天 - 国語研が258億語の日本語コーパス「梵天」を公開

国立国語研究所がのべ38.8億文の258億語で構築したコーパスを公開するようなのでメモ。

一般公開版は文字列検索のみ可能なのに対し、高機能版は品詞列検索・係り受け検索、インデックス情報のダウンロードが可能なようですが、一般的なPCのリテラシーがあり、国語研のコーパス検索システム「中納言」について半年以上の利用経験があり、国語研が開催する検索系「梵天」講習会に参加という条件を満たした場合にのみ申し込みが可能なようです。

258億語の日本語コーパスをウェブで公開~国立国語研究所 -INTERNET Watch

NWJCは、2014年10~12月にインターネット上で8399万2556のURLから収集した258億3694万7421のコーパスを収録。文数では14億6314万2939、のべ文数は38億8588万9575に上るデータが格納されている。

日付が変わって公開されていたので、ちょっと使ってみましたが、当時のブログが大量に格納されているようです。スパムっぽいものも結構入っているようですが、なかなか面白そうです。


    トラックバックについて
    Trackback URL:
    お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
    このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/9192
    Trackbacks
    このエントリにトラックバックはありません
    Comments
    愛のあるツッコミをお気軽にどうぞ。[policy]
    古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
    コメントはありません
    Comments Form

    コメントは承認後の表示となります。
    OpenIDでログインすると、即時に公開されます。

    OpenID を使ってログインすることができます。

    Identity URL: Yahoo! JAPAN IDでログイン