- blogs:
- cles::blog
2017/03/06

国語研が258億語の日本語コーパス「梵天」を公開


国立国語研究所がのべ38.8億文の258億語で構築したコーパスを公開するようなのでメモ。
一般公開版は文字列検索のみ可能なのに対し、高機能版は品詞列検索・係り受け検索、インデックス情報のダウンロードが可能なようですが、一般的なPCのリテラシーがあり、国語研のコーパス検索システム「中納言」について半年以上の利用経験があり、国語研が開催する検索系「梵天」講習会に参加という条件を満たした場合にのみ申し込みが可能なようです。
258億語の日本語コーパスをウェブで公開~国立国語研究所 -INTERNET Watch
NWJCは、2014年10~12月にインターネット上で8399万2556のURLから収集した258億3694万7421のコーパスを収録。文数では14億6314万2939、のべ文数は38億8588万9575に上るデータが格納されている。
日付が変わって公開されていたので、ちょっと使ってみましたが、当時のブログが大量に格納されているようです。スパムっぽいものも結構入っているようですが、なかなか面白そうです。
トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/9192
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
サイト内検索
検索ワードランキング
へぇが多いエントリ
閲覧数が多いエントリ
1 . アーロンチェアのポスチャーフィットを修理(111976)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110606)
3 . 年次の人間ドックへ(110237)
4 . 2023 年分の確定申告完了!(1つめ)(109780)
5 . 三菱鉛筆がラミーを買収(109679)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110606)
3 . 年次の人間ドックへ(110237)
4 . 2023 年分の確定申告完了!(1つめ)(109780)
5 . 三菱鉛筆がラミーを買収(109679)
cles::blogについて
Referrers