BLOGTIMES
2008/05/03

UserAgentのURLにアクセスできないrobot

  rakuten 
このエントリーをはてなブックマークに追加

最近の検索エンジンはケータイ向けのサービスを強化していることもあって、モバイルページへのロボットのアクセスもかなり多くなってきました。

216.255.229.246 - - [02/May/2008:17:54:55 +0900] "GET /i/item/1407?skinid=mob/docomment HTTP/1.1" 200 2848 "http://blog.cles.jp/i/item/1407" "DoCoMo/1.0/N505i/c20/TB/W20H10 (compatible; RFCrawler-Mobile/1.0; +http://www.rfms.jp/crawler.html)"

そんな中、ものすごい勢いでアクセスしてくるロボットがあったので、調べてみると、どうやら楽天・ファスト・モバイルサーチのロボットのようなんですが、記載されているURLにアクセスしてみるとTomcatの404エラーが表示されます。・・・・・なんていうか、救いようがないですね。楽天に言っても無駄かもしれませんが、もうちょっと品良くしてくれないでしょうか。

2008/5/7 20:08追記

問題は解決したようです。
下記の書き込みのほか、担当の方からメールの返信も頂きました。


    トラックバックについて
    Trackback URL:
    お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
    このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/2544
    Trackbacks
    このエントリにトラックバックはありません
    Comments
    愛のあるツッコミをお気軽にどうぞ。[policy]
    古いエントリについてはコメント制御しているため、即時に反映されないことがあります。

    ご指摘ありがとうございます。クローラページは問題を修正させていただきました。http://www.rfms.jp/crawler....

    クロール負荷に関してですが、
    貴サイトのrobots.txt をチェックしましたところ、Crawl-delay: 0と指定されています。この指定はrobots.txtの仕様によれば、User-agent:単位で影響を及ぼす設定です。貴サイトの設定ではUser-agent:*と指定されているため、すべてのクローラに対し、除外されたページ以外のすべてのページにCrawl-delay:0 の影響が及びます。このためわれわれのクローラの動作は間違いとはいえません。以上のことからrobots.txtの記述を変更されることをお勧めいたします。現在は貴サイトのクロールをストップしておりますので、負荷はおかけしていません。ほかにも不具合を発見されましたら、ご報告いただければ幸いです。

    hsur (2008/05/07 20:07) <%HatenaAuth()%>

    こんな時間にご苦労様です。
    開発チームの方にコメントがいただけるとは思っていませんでした。

    Crawl-delay: 0についてはサーバの状況に応じて自動的に変更するようにしていますので、
    こちらのプログラムのバグと、タイミングが悪かったのかもしれません。
    # こちらについては0が出力されないように、改良を加えました。
    # 0は出力されないようになっていますので、クロールを再開していただいて結構です。

    確かに御社のロボットは仕様的には間違いはないと思いますが、
    このパラメータを小さくしたことによって、秒間10アクセスするような
    他社のロボットはないということを申し添えておきます。

    Comments Form

    コメントは承認後の表示となります。
    OpenIDでログインすると、即時に公開されます。

    OpenID を使ってログインすることができます。

    Identity URL: Yahoo! JAPAN IDでログイン