- blogs:
- cles::blog
2015/05/22

HTML をプレーンテキストに変換する (Python 編)


HTML 文章からプレーンなテキストを取り出すのに何か良い方法はないかと思っていろいろ探してみたら、Python で書かれた html2text が良さそうだったのでメモ。
html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format).
使い方はこんな感じ。入力の文字コードは UTF-8 を期待しているようなので、nkf を噛ませています。
wget http://blog.cles.jp/ -O - | nkf -w | python html2text.py --ignore-emphasis --ignore-links --ignore-images
HTMLをテキストに変換すると壊れた文字が入ったりとかいろいろと難しいのですが、試した限りだとこれが一番良好な結果を返しました。
トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/7628
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
サイト内検索
検索ワードランキング
へぇが多いエントリ
閲覧数が多いエントリ
1 . Windows 10 で勝手にログアウトされないようにする(7348)
2 . これが本物の「Amazon セキュリティ警告」(5838)
3 . リモートデスクトップで Alt + PrtSc と同じことをするには(5450)
4 . 「日次」は「にちじ」じゃない?(4510)
5 . Visual Studio 2017/2019 で scanf() がエラー(C4996)になるときは(4276)
2 . これが本物の「Amazon セキュリティ警告」(5838)
3 . リモートデスクトップで Alt + PrtSc と同じことをするには(5450)
4 . 「日次」は「にちじ」じゃない?(4510)
5 . Visual Studio 2017/2019 で scanf() がエラー(C4996)になるときは(4276)
cles::blogについて
Referrers