BLOGTIMES
2013/09/09

PDFやWord, Excel などからテキスト抽出ができる xdoc2txt

  windows  pdf  msoffice  fulltextsearch 
このエントリーをはてなブックマークに追加

先日、Apache PDFbox を使って PDF からテキストを抽出する方法を調べましたが、もう少し調べてみたら PDF だけではなく、Word や Excel, 一太郎などの様々な電子データからテキストを抽出することができる xdoc2txt というソフトウェアを見つけたのでメモ。

Windows 専用なので、検索システムに組み込むには少し工夫が必要になりそうですね。
Wine を使って動作可能かどうかについては今度検証してみようと思います。

xdoc2txt

xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出 する汎用テキストコンバータであり、Windowsのコマンドラインで動作します。
xdoc2txtは各種文書の構造を直接解析しているため、単独で変換できます。WORDや Acrobatなど、作成元のアプリケーションをインストールする必要はありません。
高速に動作するので、各種全文検索エンジンのフィルタに最適です。

試しに PDFbox の時と同じくドコモの開示文書からテキスト文を抽出してみましたが、 PDFbox とほぼ同様の出力結果が得られました。

201 3年9月6日 各 位 本日の一部報道について 本日、一部報道機関において、 当社がアップル社の「 iPhone 」を発売する旨の報道 がありましたが、 当社が発表したもので はございません。 また、現時点において、 開示すべき 決定した事実はございません。 以 上 会 社 名 株式会社 エヌ・ティ・ティ・ドコモ 代表者名 代表取締役社長 加藤 薰 (コード: 9437 、東証第一 部) 問合せ先 総務部 株式担当 ( TEL. 03-5156 -1111) --1/1--

    トラックバックについて
    Trackback URL:
    お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
    このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/6131
    Trackbacks
    このエントリにトラックバックはありません
    Comments
    愛のあるツッコミをお気軽にどうぞ。[policy]
    古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
    コメントはありません
    Comments Form

    コメントは承認後の表示となります。
    OpenIDでログインすると、即時に公開されます。

    OpenID を使ってログインすることができます。

    Identity URL: Yahoo! JAPAN IDでログイン