- blogs:
- cles::blog
2015/05/22

HTML をプレーンテキストに変換する (Python 編)


HTML 文章からプレーンなテキストを取り出すのに何か良い方法はないかと思っていろいろ探してみたら、Python で書かれた html2text が良さそうだったのでメモ。
html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format).
使い方はこんな感じ。入力の文字コードは UTF-8 を期待しているようなので、nkf を噛ませています。
wget http://blog.cles.jp/ -O - | nkf -w | python html2text.py --ignore-emphasis --ignore-links --ignore-images
HTMLをテキストに変換すると壊れた文字が入ったりとかいろいろと難しいのですが、試した限りだとこれが一番良好な結果を返しました。
トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/7628
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
サイト内検索
検索ワードランキング
へぇが多いエントリ
閲覧数が多いエントリ
1 . アーロンチェアのポスチャーフィットを修理(112109)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110746)
3 . 年次の人間ドックへ(110351)
4 . 2023 年分の確定申告完了!(1つめ)(109904)
5 . 三菱鉛筆がラミーを買収(109802)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110746)
3 . 年次の人間ドックへ(110351)
4 . 2023 年分の確定申告完了!(1つめ)(109904)
5 . 三菱鉛筆がラミーを買収(109802)
cles::blogについて
Referrers