国立国会図書館のロボット
2005年1月12日(水曜日)
国立国会図書館のロボット
最近、こんな URL がリクエストされます。
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/).href=
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/).style.display=
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/;document.getElementById(
Referer は http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/comment (altba.com) なのですが、このページにはそんなリンクありません。ソース内には ").href=" とか ").style.display=" とか ";document.getElementById(" という文字列自体は存在しているのですが、href 属性に指定しているわけではありませんし。この UA、HTML の解釈にかなり大きな問題を抱えているように思います (XHTML だから、なのかもしれませんが)。
さらにこの UA は同じ Referer で以下のような URL を次々とリクエストしています。
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1173
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1174
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1176
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1178
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1179
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1196
- http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1197
そんなリンクもありません。そのかわり、このページには http://altba.com/bakera/hatomaru.aspx/htmlbbs/article/1173 (altba.com) などの URL へのリンクが存在しています。これは相対 URL で以下のように書かれています。
<a href="../../htmlbbs/article/1173"
やっぱり HTML の解釈時に何か凄い間違いを犯しているとしか思えないのですが……。http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/commentに href="../../htmlbbs/article/1173" と書かれているのを、どうしたら http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1173 と解釈できるのかさっぱりわかりません。
その UA の User-Agent: フィールドの値は以下の通り。
User-Agent : ndl-japan-research-robot-1.1 (http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html)(http://e-public.nttdata.co.jp/bulkresearch2004/index.html)
なんと国会図書館 (www.ndl.go.jp)のロボットでしたか。スラッシュドットに「国会図書館が.jpなウェブを全部保存する計画 (slashdot.jp)」という話が出ていましたが、もう調査を開始しているのですね。
いくらなんでもロボットの動作が悲し過ぎですが、これはまだテスト段階なのでしょう。って、これで実際にクロールさせているというのも凄いと言えば凄いですが。
- 「国立国会図書館のロボット」へのコメント (2件)
- 前(古い): 悪意あるソフトウェアの削除ツール
- 次(新しい): head 内の noscript で frameset が無効化される