BLOGTIMES
2015/05/22

HTML をプレーンテキストに変換する (Python 編)

  python  markdown 
このエントリーをはてなブックマークに追加

HTML 文章からプレーンなテキストを取り出すのに何か良い方法はないかと思っていろいろ探してみたら、Python で書かれた html2text が良さそうだったのでメモ。

aaronsw/html2text

html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format).

使い方はこんな感じ。入力の文字コードは UTF-8 を期待しているようなので、nkf を噛ませています。

wget http://blog.cles.jp/ -O - | nkf -w | python html2text.py --ignore-emphasis --ignore-links --ignore-images

HTMLをテキストに変換すると壊れた文字が入ったりとかいろいろと難しいのですが、試した限りだとこれが一番良好な結果を返しました。


    トラックバックについて
    Trackback URL:
    お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
    このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/7628
    Trackbacks
    このエントリにトラックバックはありません
    Comments
    愛のあるツッコミをお気軽にどうぞ。[policy]
    古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
    コメントはありません
    Comments Form

    コメントは承認後の表示となります。
    OpenIDでログインすると、即時に公開されます。

    OpenID を使ってログインすることができます。

    Identity URL: Yahoo! JAPAN IDでログイン