- blogs:
- cles::blog

UserAgentのURLにアクセスできないrobot

最近の検索エンジンはケータイ向けのサービスを強化していることもあって、モバイルページへのロボットのアクセスもかなり多くなってきました。
そんな中、ものすごい勢いでアクセスしてくるロボットがあったので、調べてみると、どうやら楽天・ファスト・モバイルサーチのロボットのようなんですが、記載されているURLにアクセスしてみるとTomcatの404エラーが表示されます。・・・・・なんていうか、救いようがないですね。楽天に言っても無駄かもしれませんが、もうちょっと品良くしてくれないでしょうか。
† 2008/5/7 20:08追記
問題は解決したようです。
下記の書き込みのほか、担当の方からメールの返信も頂きました。
このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/2544
古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
ご指摘ありがとうございます。クローラページは問題を修正させていただきました。http://www.rfms.jp/crawler....
クロール負荷に関してですが、
貴サイトのrobots.txt をチェックしましたところ、Crawl-delay: 0と指定されています。この指定はrobots.txtの仕様によれば、User-agent:単位で影響を及ぼす設定です。貴サイトの設定ではUser-agent:*と指定されているため、すべてのクローラに対し、除外されたページ以外のすべてのページにCrawl-delay:0 の影響が及びます。このためわれわれのクローラの動作は間違いとはいえません。以上のことからrobots.txtの記述を変更されることをお勧めいたします。現在は貴サイトのクロールをストップしておりますので、負荷はおかけしていません。ほかにも不具合を発見されましたら、ご報告いただければ幸いです。
こんな時間にご苦労様です。
開発チームの方にコメントがいただけるとは思っていませんでした。
Crawl-delay: 0についてはサーバの状況に応じて自動的に変更するようにしていますので、
こちらのプログラムのバグと、タイミングが悪かったのかもしれません。
# こちらについては0が出力されないように、改良を加えました。
# 0は出力されないようになっていますので、クロールを再開していただいて結構です。
確かに御社のロボットは仕様的には間違いはないと思いますが、
このパラメータを小さくしたことによって、秒間10アクセスするような
他社のロボットはないということを申し添えておきます。
コメントは承認後の表示となります。
OpenIDでログインすると、即時に公開されます。
OpenID を使ってログインすることができます。
2 . 福岡銀がデマの投稿者への刑事告訴を検討中(110695)
3 . 年次の人間ドックへ(110315)
4 . 2023 年分の確定申告完了!(1つめ)(109862)
5 . 三菱鉛筆がラミーを買収(109770)