robots.txt って何だろう?

ヤフーやグーグルのウェブマスターヘルプを眺めていると、robots.txt がどうこうって書かれていることが多いですが、このテキストファイルは、ルートディレクトリにアップロードすることで検索エンジンのクロールを制御することができるものらしいんです。

無料ブログの場合、ルートディレクトリにはアクセスできませんが、レンタルサービス側で設定してくれたりもしているようで、当ブログにもちゃんと設定されているようなんです。

robots.txt の作り方と設置場所

シーサーブログの場合はサブドメイン型ブログなので、デフォルトで設定されているようなんですが、robots.txt はサブディレクトリには設置できないようです。

なので、ヤフーブログなどのサブディレクトリ型ブログには設定されていないようです。

この robots.txt は、ルートディレクトリに設置されているテキストファイルなので、トップページのURLに robots.txt を追加してアクセスすると見ることができるかと思います。

yahoo や google のクローラーに巡回して欲しくないファイルには Disallow とかって書いて制御することができるほか、サイトマップの場所を指定したり、巡回頻度を調節したりもできるようです。

robots.txtとは? - Yahoo!インフォセンター

robots.txt ファイルを使用してサイトへのアクセスを管理する

無料ブログではルートディレクトリにアクセスできないので、自分では設定することができませんが、ブログサービス側でぶなんな感じで設定してくれているようです。


試しに当ブログの seesaa blog の robots.txt を見てみると、BecomeJPBot のクロールを拒否しているようなんですが、なかには猛烈にクロールしてくるロボットもあるようです。

fc2 ブログだと OmniExplorer_Bot っていうロボットのクロールを Crawl-delay で 2592000 に設定しているようなんですが、この Crawl-delay っていうのは、アクセスする間隔のことらしいんです。

たいていは 20 とかの設定なのに、OmniExplorer_Bot だけ2592000 で設定しているということは、けっこう行儀が悪いロボットなんじゃないかなって気もします。

正直、クロールはグーグルとヤフーだけでいいと思うんですが、robots.txt がない場合は普通に巡回するもののようなんで、あえて設置するものでもないかと思います。

ホームページを作成している場合など、巡回を拒否したい場合のみ設置するといいみたいです。

自分でメモ帳で書いても簡単ですが、グーグルのウェブマスターツールで簡単に作成することもできます。

robots.txt はサイトのルートディレクトリにのみ設置することができるようなんで、サブドメイン型の fc2 の無料ホームページあたりだと、ひょっとしたら自分で作っておいても機能するんじゃないかなって気もします。

シーサーブログの場合は自分では設定できません。

関連記事
  • 独自ドメインとサブドメインの見分け方
    ブログで独自ドメインとかサブドメインとかっていうのをよく聞くんですけど、いまいちよくわかんないとこもあったりです。 特に無料ブログを独自ドメイン化して運用しようってときは、いまいちどうやればいいのか...
  • サイトマップの作り方(ウェブマスターツール)
    グーグル用のサイトマップを作成したら、グーグルウェブマスター ツールをつかってグーグルに送信します。そうするとグーグルの検索ロボットが自分のブログの構造を認識しやすくなり、自分のページが登録されやすく...
  • htaccess ファイルって何だろう?
    ホームページ作成の際、.htaccess と robots.txt のファイル設定は基本的な設定事項としてよく出てきますが、両方ともなきゃないでもいいっぽい気もします。 .htaccess のファイ...