MechanizeでUTF-8以外のページをスクレイピングするときの文字化け対策

ruby

scrape

charset

RubyのMechanizeはスクレイピングをするときにとても便利なライブラリですが、UTF-8以外のページだとどうしてもうまく取得出来ないページがあって困っていたのですが、「Mechanize Nokogiri の非JIS文字対応 - それはそれ。これはこれ。」というエントリを参考にworkaroundを追加してなんとか回避することに成功したのでメモ。

require 'rubygems'
require 'mechanize'
require 'nkf'

agent = WWW::Mechanize.new
agent.user_agent_alias = "Windows IE 7"

# workaround
agent.post_connect_hooks << Proc.new do |params|
  if %r|text| =~ params[:response]["Content-Type"]
    params[:response_body] = NKF.nkf("-wm0",params[:response_body])
    params[:response_body].gsub(/<meta[^>]*>/) do |meta|
      meta.sub(/Shift_JIS|SJIS|EUC-JP/i,"UTF-8")
    end
    params[:response]["Content-Type"]="text/html; charset=utf-8"
  end
end

agent.get("http://example.jp/")

ほとんど参考にしたエントリそのままですが、共通のルーチンでいろんなエンコードに対応させたかったので、NKFの引数から入力エンコーディングの指定を取り去ったり、metaタグ内の"Content-Typeのエンコーディングの書き換えについてはちょっと手を入れています。

フックをつかってパーサーに渡る前の文字列のエンコーディングをあらかじめ変更しておいてあげるというなかなかの力業ですが、Nokogiri内の処理が信頼できない以上、それもいたしかたないですね。

by hsur at 20:21 [5年前][4年前][3年前][2年前][1年前][1年後][2年後][3年後][4年後][5年後] |

こんな記事もあります「Mechanize JIS meta」

・頸動脈エコーを受けてきた
・Engineer ハンドラップ
・冬でもメガネが曇らないコーティングができる
・薬が切れたので 5 日ぶりの外出（療養 6 日目）
・CentOS8 を CentOS8 Stream に
・東大に「メタバース工学部」？
・LVM + ext4 のディスクをオンラインのまま拡張する
・メタップスペイメントに行政処分
・白山神社の紫陽花祭り 2022
・HITACHI R-V32RV

トラックバックについて

Trackback URL:

お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]

このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/3416

Trackbacks

[ruby][mechanize]Mechanize 2.0.1でUTF-8以外の文字化け対策

Mechanizeを使ってスクレイプしてるとUTF-8以外のページでうまくいかないことがあるので、その対策です。 http://blog.cles.jp/item/3416 からほとんどまるまるコピペなんですけど、2.0.1だと引数が変わってるみたいだったので対応しました。 Mechanizeをnewしたあとにhook

働かないプログラマのメモ帳 (2011/07/31 08:08)

Comments

愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。

コメントはありません

Comments Form