水無月ばけらのえび日記

bakera.jp > 水無月ばけらのえび日記 > robots.txt から世界が見える?

robots.txt から世界が見える?

2004年3月15日(月曜日)

robots.txt から世界が見える?

米NetContinum・Romer氏「システムはWebサービス技術で複雑化した」 (enterprise.watch.impress.co.jp)

またロボット型検索エンジンに対する命令を記述するため、ホスト直下に置かれている「robot.txt」には、サイト内のディレクトリが記されている場合があり、。本来は不可視の部分が見えることで、アクセス制御されていなければ情報の取得が可能になってしまうことも示された。

以上、米NetContinum・Romer氏「システムはWebサービス技術で複雑化した」 より

「あり、。」という謎の句読点の連続はまあ愛嬌として、「robot.txt」は「robots.txt」が正解ですね。たまに間違って解説されていることがありますので要注意。s が無いだけで読んでもらえませんので……。

それはさておいて、robots.txt の情報からディレクトリが分かってしまう、というのは面白いと思いました。robots.txt でアクセス拒否しているディレクトリというのは、「見える」かつ「見せたくない」ディレクトリである場合が多いでしょう。そんな場合、普通はアクセス制限しますけれど……今までの経験からすると、この「普通は」というのはなかなかの曲者です。

※「普通はこんなことしないよね」「普通は気づくよね」という会話が何度繰り返されたことか。

あんまり関係ない話ですが、私の手元では「どのリソースも 401 なんだけど、ロボットに無駄な努力をさせないために robots.txt を置いている」というケースがあります。これ、単純に全リソースに Basic 認証をかけると robots.txt も 401 になってしまって、肝心のロボットが /robots/txt を読めないという間抜けなことになってしまいます。そこでわざわざ /robots.txt だけが Authorization なしで読めるように設定したという……。

関連する話題: セキュリティ

最近の日記

関わった本など

インクルーシブHTML+CSS & JavaScript 多様なユーザーニーズに応えるフロントエンドデザインパターンデザイニングWebアクセシビリティ - アクセシブルな設計やコンテンツ制作のアプローチコーディングWebアクセシビリティ - WAI-ARIAで実現するマルチデバイス環境のWebアプリケーション体系的に学ぶ 安全なWebアプリケーションの作り方 脆弱性が生まれる原理と対策の実践ウェブの仕事力が上がる標準ガイドブック 5 Webプログラミング

その他サイト