robots.txtとは

robots.txtとは、検索エンジンにおいてクローラーの動作をコントロールするためのテキストファイルを指します。Webサイト内のページやディレクトリといったファイルに対する、クローラーの巡回を制限するときに用います。

robots.txtの主な役割は、「クローラーが不要な情報(ページやディレクトリ、CSS、JavaScript、画像など)を読み取らないように指示する」「限られた訪問数を消費せずに、読み取ってほしい情報へクローラーを導く」という2点です。

クローラーがWebサイトを巡回することで得た情報は、検索エンジン提供企業のデータベースに登録(インデックス)され、ランキングアルゴリズムの判断によって、検索順位を決める際の要素となります。Webサイト内の情報がクローラーに読み込まれない場合は、Webサイトが検索結果に表示されることはありません。クローラーは、基本的に内部リンクや被リンクによってWebサイトへたどり着きますが、ドメインごとに訪問できるページ数には上限があります。そのため、膨大なページ数がある、リンクの階層が深い大規模なWebサイトなどでは、クローラーが効率よくWebサイト内を巡ることができず、一度の巡回によって全ページの情報を収集することができません。Webサイトを検索結果に表示させるためには、サイト内の重要なページにクローラーを誘導する必要があります。そこで、robots.txtを使ってクローラーを制御し、クローラーの最適化を図るのです。 robots.txtを記述する際は、以下が必要な項目となります。

User-agent(ユーザーエージェント):制御したいクローラーの種類を指定
Disallow(ディスアロウ):クローラーの巡回を拒否するページを指定
Allow(アロウ):クローラーの巡回を受け入れるページを指定する
Sitemap(サイトマップ):クローラーのためのサイトマップの場所を指定

Webサイトに設置したrobots.txtが正常に動作しているかどうかについては、Google Search Console(グーグル・サーチ・コンソール)内にある「robots.txtテスター」を使えば確認することができます。なお、robots.txtの記述内容はすぐに反映されないこと、アドレスバーにURLを入力すれば外部からrobots.txtの記述内容を閲覧できること、そしてクローラーを拒否してもユーザーはそのページにアクセスできることなど、robots.txtの使用にはいくつか注意点が存在します。