2004年3月15日(月曜日)
robots.txt から世界が見える?
米NetContinum・Romer氏「システムはWebサービス技術で複雑化した」 (enterprise.watch.impress.co.jp)。
またロボット型検索エンジンに対する命令を記述するため、ホスト直下に置かれている「robot.txt」には、サイト内のディレクトリが記されている場合があり、。本来は不可視の部分が見えることで、アクセス制御されていなければ情報の取得が可能になってしまうことも示された。
「あり、。」という謎の句読点の連続はまあ愛嬌として、「robot.txt」は「robots.txt」が正解ですね。たまに間違って解説されていることがありますので要注意。s が無いだけで読んでもらえませんので……。
それはさておいて、robots.txt の情報からディレクトリが分かってしまう、というのは面白いと思いました。robots.txt でアクセス拒否しているディレクトリというのは、「見える」かつ「見せたくない」ディレクトリである場合が多いでしょう。そんな場合、普通はアクセス制限しますけれど……今までの経験からすると、この「普通は」というのはなかなかの曲者です。
※「普通はこんなことしないよね」「普通は気づくよね」という会話が何度繰り返されたことか。
あんまり関係ない話ですが、私の手元では「どのリソースも 401 なんだけど、ロボットに無駄な努力をさせないために robots.txt を置いている」というケースがあります。これ、単純に全リソースに Basic 認証をかけると robots.txt も 401 になってしまって、肝心のロボットが /robots/txt を読めないという間抜けなことになってしまいます。そこでわざわざ /robots.txt だけが Authorization なしで読めるように設定したという……。
- 「robots.txt から世界が見える?」へのコメント (5件)
関連する話題: セキュリティ
こんなところに Keita 君
テックスタイル岡田氏「Webサイト運営側のモラルと責任を見直すべき」 (enterprise.watch.impress.co.jp)という記事を読んでいたのですが、末尾に講演者の岡田氏の blog へのリンクがあったので辿ってみると、一発目の記事 (okdt.org)に
その昔某社ですれ違ったvery cuteなKeita君
以上、Okdt BLOG :ドラスティックな改善。/ より
という話題が。世間って狭いですね。
※そして「very cuteなKeita君」という語を心に深く刻みつけた私でありました。
- 前(古い): 2004年3月13日(Saturday)のえび日記
- 次(新しい): 2004年3月16日(Tuesday)のえび日記