PDFBox で PDF からテキストを抽出する

java

apache

pdf

PDF からテキストを抽出するいい方法がないかなと思っていたら、Apache PDFBoxで簡単に実現できたのでメモ。
この手のライブラリとしては Xpdf なんかもありますが、PDFBox は日本語用に CMap の設定が必要なかったりするのでこちらの方がセットアップはかなり楽です。

Apache PDFBox | A Java PDF Library

The Apache PDFBox™ library is an open source Java tool for working with PDF documents. This project allows creation of new PDF documents, manipulation of existing documents and the ability to extract content from documents. Apache PDFBox also includes several command line utilities. Apache PDFBox is published under the Apache License v2.0.

アプリに組み込んだりするのであればライブラリとして使った方がよいと思いますが、単にテキストが欲しいという場合にはコマンドラインからそのまま使うことができます。試しに昨日のドコモの iPhone 発売騒ぎに対する開示文書からテキストを抜き出してみるとこんな感じになります。予期しない所に改行やスペースが入ったりするので、見栄えを考えるとやはり何かしらの加工は必要そうですね。

$ java -jar pdfbox-app-1.8.2.jar ExtractText -console 140120130906020385.pdf

2013年 9月 6日

各 位

本日の一部報道について

 本日、一部報道機関において、当社がアップル社の「ｉＰｈｏｎｅ」を発売する旨の報道がありましたが、
当社が発表したものではございません。
また、現時点において、開示すべき決定した事実はございません。

以 上
会 社 名   株式会社エヌ・ティ・ティ・ドコモ
代表者名   代表取締役社長  加藤 薰
（コード：9437、東証第一部）
問合せ先   総務部 株式担当
（TEL．03－5156－1111）