水無月ばけらのえび日記

bakera.jp > 水無月ばけらのえび日記 > 国立国会図書館のロボット

国立国会図書館のロボット

2005年1月12日(水曜日)

国立国会図書館のロボット

最近、こんな URL がリクエストされます。

Refererhttp://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/comment (altba.com) なのですが、このページにはそんなリンクありません。ソース内には ").href=" とか ").style.display=" とか ";document.getElementById(" という文字列自体は存在しているのですが、href 属性に指定しているわけではありませんし。この UA、HTML の解釈にかなり大きな問題を抱えているように思います (XHTML だから、なのかもしれませんが)。

さらにこの UA は同じ Referer で以下のような URL を次々とリクエストしています。

そんなリンクもありません。そのかわり、このページには http://altba.com/bakera/hatomaru.aspx/htmlbbs/article/1173 (altba.com) などの URL へのリンクが存在しています。これは相対 URL で以下のように書かれています。

<a href="../../htmlbbs/article/1173"

やっぱり HTML の解釈時に何か凄い間違いを犯しているとしか思えないのですが……。http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/commentに href="../../htmlbbs/article/1173" と書かれているのを、どうしたら http://altba.com/bakera/hatomaru.aspx/yomoyama/commentdecl/1173 と解釈できるのかさっぱりわかりません。

その UA の User-Agent: フィールドの値は以下の通り。

User-Agent : ndl-japan-research-robot-1.1 (http://www.ndl.go.jp/jp/aboutus/bulkresearch2004/index.html)(http://e-public.nttdata.co.jp/bulkresearch2004/index.html)

なんと国会図書館 (www.ndl.go.jp)のロボットでしたか。スラッシュドットに「国会図書館が.jpなウェブを全部保存する計画 (slashdot.jp)」という話が出ていましたが、もう調査を開始しているのですね。

いくらなんでもロボットの動作が悲し過ぎですが、これはまだテスト段階なのでしょう。って、これで実際にクロールさせているというのも凄いと言えば凄いですが。

関連する話題: Web / UA

最近の日記

関わった本など