検索ブロック: クローラー対策を徹底解説

2024年10月16日

本記事では、検索エンジンクローラーの仕組みから、クロールをブロックする理由、方法、そして注意点まで、具体的な事例を交えながら詳しく解説します。
SEO対策において、クロールを適切に制御することは、サイトの健全な成長に不可欠です。この記事を読めば、あなたのサイトを検索エンジンのクローラーから守るための知識と技術を習得できます。 適切なクロール制御によって、サイトのパフォーマンス向上とユーザーエクスペリエンスの改善を実現しましょう。

検索エンジンクローラーとは?

Googleを始めとする検索エンジンは、インターネット上の情報を収集する役割を担っています。これらの検索エンジンは、ロボットプログラム、つまりクローラーと呼ばれるプログラムを用いて、ウェブサイトを巡回し、情報を収集します。クローラーは、ウェブサイトのコンテンツ、画像、動画などの情報を収集し、データベースに登録します。

このデータベースに基づいて、検索エンジンのアルゴリズムが、検索キーワードに関連するウェブサイトをランキング付けし、ユーザーに表示する順番を決定します。つまり、クローラーに認識され、データベースに登録されることで、ウェブサイトは検索結果に表示される機会を得ることになります。もし、ウェブサイトがクローラーに認識されない場合、検索結果に表示されることはなく、ユーザーに見られる機会を失う可能性があります。クローラーの詳細な機能や、自身のウェブサイトでの設定方法については、関連する資料をご参照ください。

検索エンジンからのクロールをブロックする理由

Webサイトが検索エンジンのインデックスに登録されるためには、検索エンジンのクローラーによる認識が不可欠です。ウェブサイトを公開しても、アクセスがない場合は、インデックスに登録されていない可能性があります。ただし、テスト段階のページや会員限定ページなど、インデックスに登録する必要のないページも存在するでしょう。このようなページは、クローラーのアクセスを制限する必要があります。

SEOに悪影響を及ぼす低品質な重複コンテンツをクローラーが巡回してしまうと、高品質なページの巡回頻度が低下する可能性があります。そのため、クローラーがアクセスを許可するページと制限するページを適切に管理することが重要となります。

クローラーのアクセスを制限することは、一見すると危険な対策のように思えるかもしれません。しかし、正しく理解し活用することで、Webサイト運営に大きなメリットをもたらします。

クロールをブロックすべきページとは?

ウェブサイトの構造上、必要となるページであっても、検索エンジンのクローラーに認識させると、低品質なコンテンツと判断される可能性のあるページが存在します。具体的には、以下のようなページが該当します。

・同一の内容を持つページが複数存在するページ
・掲載されている情報量が少なく、ユーザーにとって有益な情報が少ないページ
・更新頻度が低いページ
・テンプレート化されたページで、オリジナルコンテンツが不足しているページ
・類似したキーワードで構成されたページが大量に存在するページ
・広告ばかりで、コンテンツが少ないページ

さらに、プログラムによって自動生成されたコンテンツなど、ユーザーにとって価値のないページも、検索エンジンの評価を下げる要因となり得ます。以下に、そのようなページの例を挙げます。

・自動生成されたニュース記事
・自動生成された商品レビューページ
・データベースから生成された製品情報ページ
・ランダムに生成された文章のページ

また、テストページや会員限定ページなど、検索エンジンからアクセスされると不利益が生じる可能性のあるページも、クローラーからブロックすることが推奨されます。具体的には、以下のようなページが該当します。

・開発中のページ
・ログインしないとアクセスできないページ
・特定のユーザーにしか表示されないページ
・個人情報を含むページ

これらのページは、検索エンジンの評価を低下させる要因となる可能性があります。そのため、検索エンジンのクローラーからこれらのページへのアクセスをブロックすることが推奨されます。

URL削除ツールが有効なケース

ウェブサイトやページを削除した際に、検索エンジンから見つかると困るケースは少なくありません。また、テストページが誤って検索エンジンのインデックスに登録されてしまった場合も、対策が必要となります。

本記事では、検索エンジンに登録されないようにするための方法を解説していますが、すでにインデックスされているページの登録を削除したい場合は、URL削除ツールを利用することを推奨します。

本記事で紹介する方法は、あくまで検索エンジンに登録されないようにするための方法であり、登録済みのページのインデックスをすぐに削除するものではありません。もし、迅速にインデックス削除を希望される場合は、URL削除ツールを活用することを検討してください。

クロールをブロックする方法3選

検索エンジンのクローラーが特定のページをアクセスすることを制限したい場合は、いくつかの方法があります。最も一般的な方法を3つご紹介します。

・robots.txtファイルを利用する方法: クローラーにアクセスを許可しないページを指定します。
・noindexタグを利用する方法: クローラーはアクセスしますが、検索結果に表示されないように指示します。
・パスワードで保護する方法: クローラーがアクセスできないように、ページへのアクセスを制限します。

その中でも使いこなせれば一番効果的に運用できるrobots.txtを使ったブロック方法をご紹介します。

robots.txtを使ったブロック方法

ウェブサイトの運営者にとって、検索エンジンによるインデックス作成とクロールを適切に管理することは重要です。そのために使用されるのが「robots.txt」ファイルです。このファイルは、検索エンジンのクローラーに対して、ウェブサイトのどの部分をクロールすべきか、あるいはクロールすべきではないかを指示する役割を担います。具体的には、クロールを許可するページと、クロールをブロックするページを指定することで、検索エンジンの挙動を制御します。

robots.txtファイルは、ウェブサイトのルートディレクトリに配置する必要があります。このファイルには、クローラーに対する指示を記述するルールが記述されます。例えば、特定のディレクトリやファイルへのアクセスを禁止したい場合は、そのディレクトリやファイルのパスを記述し、"Disallow"という指示を組み合わせます。逆に、特定のページを必ずクロールしてほしい場合は、そのページのパスを記述し、"Allow"という指示を組み合わせます。

robots.txtファイルは、ウェブサイトの検索エンジン最適化(SEO)にも役立ちます。例えば、特定のページを検索結果に表示させたくない場合、そのページへのアクセスをブロックすることができます。また、sitemap.xmlファイルの場所をrobots.txtファイルに記述することで、クローラーにサイトマップの場所を知らせることができます。これにより、クローラーはウェブサイトの構造をより正確に把握し、インデックス作成を効率的に行うことができます。

・robots.txtファイルは、ウェブサイトの運営者にとって非常に重要なファイルです。
・このファイルを使用することで、検索エンジンのクローラーの動きを適切に制御することができます。
・robots.txtファイルは、ウェブサイトのSEOにも役立ちます。

robots.txtの記述方法

robots.txtは、ウェブサイトの管理者が、検索エンジンのクローラーに対して、どのページをアクセス可能にするか、あるいはアクセスを制限するかを指示するファイルです。

robots.txtファイルは、ウェブサイトのルートディレクトリに配置され、ファイル名は「robots.txt」でなければなりません。

このファイルは、シンプルなテキストファイルであり、特定の命令文(ディレクティブ)を使用して記述します。

・User-agent: この命令文は、アクセスを制御するクローラーを指定します。Googlebotなど、特定の検索エンジンを指定することもできますが、「*」を記載すれば、すべてのクローラーが対象となります。
・Disallow: この命令文は、クローラーがアクセスできないページを指定します。特定のディレクトリ以下をブロックしたい場合は、「/ディレクトリ名/」と記述します。

例えば、/test/というディレクトリ以下のアクセスを制限したい場合は、以下のように記述します。
User-agent: *
Disallow: /test/
ディレクトリ限定ではなく、特定のページのアクセスを制限したい場合は、「/test/sample.html」のようにディレクトリに続けてファイル名を指定します。
User-agent: *
Disallow: /test/sample.html
robots.txtを作成したら、記述内容が正しいかをテストする必要があります。Google Search Consoleには、「robots.txtテスター」というツールが用意されているので、活用してください。

robots.txtの設置場所

robots.txtファイルを作成したら、FTPソフトを使ってサーバーにアップロードする必要があります。アップロード先は、ウェブサイトのルートディレクトリ、つまり一番上の階層に指定してください。ルートディレクトリ以外の場所にアップロードしてしまうと、正しく設定されていても robots.txt は機能しませんので注意が必要です。

robots.txtと併用すべきではないもの

noindexタグを利用する際には、robots.txtとの併用を避けることが重要です。robots.txtを使用すると、クローラーはファイルへのアクセスそのものをブロックするため、metaタグに記載されたnoindexを認識しません。これは、robots.txtでアクセスを制限しても、他のサイトからのリンクによって検索エンジンのインデックスに登録されてしまう可能性があるからです。結果として、noindexタグが機能せず、ページが検索結果に表示されてしまう可能性があります。

検索エンジンからのクロール制御

検索エンジンクローラーをブロックすることで、サイトのセキュリティ強化やユーザーエクスペリエンスの向上を図ることが可能です。不要なページへのアクセスを制限し、貴重なリソースを重要なコンテンツに集中させることで、サイトの効率性を高められます。robots.txtを活用して、適切なページのクロールを制御し、より効果的なウェブサイト運営を実現しましょう。