BLOGTIMES
2013/09/07

PDFBox で PDF からテキストを抽出する

  java  apache  pdf 
このエントリーをはてなブックマークに追加

PDF からテキストを抽出するいい方法がないかなと思っていたら、Apache PDFBoxで簡単に実現できたのでメモ。
この手のライブラリとしては Xpdf なんかもありますが、PDFBox は日本語用に CMap の設定が必要なかったりするのでこちらの方がセットアップはかなり楽です。

Apache PDFBox | A Java PDF Library

The Apache PDFBox™ library is an open source Java tool for working with PDF documents. This project allows creation of new PDF documents, manipulation of existing documents and the ability to extract content from documents. Apache PDFBox also includes several command line utilities. Apache PDFBox is published under the Apache License v2.0.

アプリに組み込んだりするのであればライブラリとして使った方がよいと思いますが、単にテキストが欲しいという場合にはコマンドラインからそのまま使うことができます。試しに昨日のドコモの iPhone 発売騒ぎに対する開示文書からテキストを抜き出してみるとこんな感じになります。予期しない所に改行やスペースが入ったりするので、見栄えを考えるとやはり何かしらの加工は必要そうですね。

$ java -jar pdfbox-app-1.8.2.jar ExtractText -console 140120130906020385.pdf 2013年 9月 6日 各 位 本日の一部報道について 本日、一部報道機関において、当社がアップル社の「iPhone」を発売する旨の報道がありましたが、 当社が発表したものではございません。 また、現時点において、開示すべき決定した事実はございません。 以 上 会 社 名 株式会社エヌ・ティ・ティ・ドコモ 代表者名 代表取締役社長 加藤 薰 (コード:9437、東証第一部) 問合せ先 総務部 株式担当 (TEL.03-5156-1111)

    トラックバックについて
    Trackback URL:
    お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
    このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/6127
    Trackbacks
    このエントリにトラックバックはありません
    Comments
    愛のあるツッコミをお気軽にどうぞ。[policy]
    古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
    コメントはありません
    Comments Form

    コメントは承認後の表示となります。
    OpenIDでログインすると、即時に公開されます。

    OpenID を使ってログインすることができます。

    Identity URL: Yahoo! JAPAN IDでログイン