- blogs:
- cles::blog
2007/05/13

Web::Scraper超便利


もう3年くらい前になりますが、Template::ExtractでWebのスクレーピングをするのが便利だという話がありました。で、当時作ったスクリプトが実はまだ某所で動いていたりするわけですが、いまやもっと便利なライブラリができてるんですねぇ。
ばっちりですね。シンボルの書き方とかがちょっと違うところ以外は Ruby 版とほぼ等化。DSL 周りのドキュメントはまだないけどとりあえず scrapi のドキュメントを読めば ok! \(^o^)/
時間はただ流れているわけでありませんね。ということでちょっとテストしてみました。perlを書くのは久しぶりです。
† ちょっとつくってみたもの
まずはperl -MCPAN -e install Web::Scraperをしておきます。
下記のコードはほとんどサンプルと一緒でページからh1とh2を取り出して表示します。
ws.pl
#!/usr/local/bin/perl
use strict;
use warnings;
use FindBin::libs;
use URI;
use Web::Scraper;
use Encode;
use YAML;
my $links = scraper {
process 'h1', 'h1[]' => 'TEXT';
process 'h2', 'h2[]' => 'TEXT';
result qw/h1 h2/
}->scrape(URI->new(shift));
warn encode('euc-jp', YAML::Dump($links));
実行結果
$ perl ws.pl http://blog.cles.jp
---
h1:
- cles::blog
h2:
- 夜中に人の家に突撃して、肉じゃがを作るオフ?
- 移動の前にこれ1本
- svchost.exeのCPU使用率が100%になるのはバグだったのか
- ぐるなびWebサービス開始
- phpでオープンソースなアンケート作成ソフト「opensurveypilot」
- Smartyの日本語マニュアル
- FizzBuzz問題が解けますか?
- 遅ればせながらtwitter始めました
- オリジナル版NP_TrackBackが 2.1.0に
- 目指せ、16連射!
ばっちりです。coolですね。
あー、例のモジュール書き直そう。。。。。
トラックバックについて
Trackback URL:
お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/2003
Trackbacks
このエントリにトラックバックはありません
Comments
愛のあるツッコミをお気軽にどうぞ。[policy]
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
コメントはありません
Comments Form
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
サイト内検索
検索ワードランキング
へぇが多いエントリ
- crontab -r とやってしまった... (2)
- Jawbone Companion (beta) (1)
- GPS ロガーを自作 (1)
- MPC-HC で連続再生を行う(解... (1)
閲覧数が多いエントリ
1 . アーロンチェアのポスチャーフィットを修理(114396)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(112922)
3 . 年次の人間ドックへ(112351)
4 . 2023 年分の確定申告完了!(1つめ)(111919)
5 . 三菱鉛筆がラミーを買収(111794)
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(112922)
3 . 年次の人間ドックへ(112351)
4 . 2023 年分の確定申告完了!(1つめ)(111919)
5 . 三菱鉛筆がラミーを買収(111794)
cles::blogについて
Referrers