SEO

【SEO】クローリングとは?仕組みを理解して検索順位を上げる最適化ガイド

Hirokuma
21分で読める
お気に入りに登録しませんか?
【SEO】クローリングとは?仕組みを理解して検索順位を上げる最適化ガイド

「クローリングって何?SEOと何の関係があるの?」
「コンテンツを作っても検索結果に表示されない…」
「Googlebotにサイトを効率よく巡回してもらうにはどうすればいい?」

そんな疑問をお持ちではありませんか?

結論からお伝えすると、クローリングはSEOの出発点であり、どれだけ良質なコンテンツを作っても、クローリングされなければ検索結果に表示されることはありません。つまり、クローリングの最適化は、コンテンツをユーザーに届けるための必須条件なのです。

この記事では、クローリングの基本的な仕組みから、Search Consoleを使った確認方法、最適化のための具体的な施策まで、SEO実践者が押さえておくべきポイントをわかりやすく解説します。

この記事でわかること

  • クローリングの仕組みとSEOにおける重要性
  • Googleのクローリングが行われる流れ
  • Search Consoleでクローリング状況を確認する方法
  • クローリングを促すための具体的な施策
  • クローリングを最適化するためのテクニック

クローリングとは?30秒でわかる基礎知識

クローリングとは?30秒でわかる基礎知識

クローリングとは、プログラム(クローラー)がWebサイトを巡回し、ページ上の情報を収集する技術のことです。

SEOの文脈では、Googleのプログラム(Googlebot)がWebサイトを巡回し、サイト内の情報を収集することを指します。

クローリングの目的はWeb上の情報を収集すること

クローリング技術は、様々な用途で活用されています。

用途 説明
検索エンジン Web上にどのようなサイトやページがあるかという情報を収集
市場調査 トレンドや興味・関心の傾向に関する情報を収集
競合リサーチ 競合他社のWebサイトから新商品や価格の情報を収集
アグリゲーションサイト サイトに掲載するべき情報を他サイトから収集

SEO対策においてクローリングが重要なのは、作成したコンテンツをユーザーに届けるために、サイトが適切にクローリングされることが前提条件だからです。

クローラーが行う3つのこと

クローラーは、クローリングにおいて主に3つのことを繰り返し行っています。

1. Webサイトの巡回

Webサイト内のリンクを辿る等の方法で、次から次へとサイトやページを巡回します。新たなページやコンテンツを発見することもあれば、すでに巡回したことのあるページにも繰り返し訪れます。

2. 巡回先の情報を取得

巡回先のページでファイルを読み込み、情報を取得(ダウンロード)します。

3. データベースへの引き渡し

情報をデータベースに登録するため、取得した情報の引き渡しを行います。

クローリングは検索エンジンの仕組みの一部

クローリングは、Google検索の仕組みにおける重要なステップです。

ステップ1:クローリング
Googleのクローラー(Googlebot)がWeb上を巡回し、巡回先のページでテキスト、画像、動画をダウンロードします。

ステップ2:インデックス登録
クローリングで取得したページ上のファイルを解析し、その情報をGoogleインデックス(大規模なデータベース)に保存します。

ステップ3:検索結果の表示
ユーザーが検索した語句に関連する情報をインデックスから探し、関連性が高く高品質なものを検索結果に表示します。

つまり、Web上のあらゆるサイトやページは、クローリングを経てインデックスに登録されることで初めて検索結果に表示されるようになります。コンテンツをユーザーに見てもらうためには、まずはクローリングされることが欠かせません。

クローリングとスクレイピングの違い

クローリングと混同されやすい技術に「スクレイピング」があります。

スクレイピングとは、不要な情報を削り取り、重要な情報だけを抽出する技術のことです。Web領域では、クローリングで収集した情報から必要な情報だけを取得するために用いられます。

技術 目的
クローリング Web上の情報収集
スクレイピング 重要な情報の抽出

市場調査や競合リサーチなどでは両方がセットで実施されることが多いですが、スクレイピング自体は検索エンジンやSEOとの関連性は低い技術です。

主要なクローラーの種類

クローリングを行うクローラー(プログラム)には様々なものがあります。

検索エンジン用のクローラー

  • Googlebot:Googleのメインクローラー
  • Bingbot:Microsoft社の検索エンジン「Bing」のクローラー
  • Baiduspider:中国の大手検索エンジン「百度」のクローラー

SEOの一環としてクローリング関連の施策を行う場合は、基本的にGooglebotを対象とします。国内の検索エンジンシェアは、GoogleとGoogleの検索エンジンを活用するYahoo! JAPANで9割以上を占めているためです。

Googleのクローリングの仕組み

Googleのクローリングの仕組み

クローラーが検出したページがクローリングされる

Webサイト(ページ)がクローリングされるためには、クローラーによってそのページが検出される必要があります。

Googleのクローラーがページを検出する方法は主に2つあります。

  1. すでにインデックスされているページに記載されたリンクを辿る
  2. サイトオーナーがGoogleに提供したXMLサイトマップを通じて訪れる

つまり、新しいコンテンツがクローリングされるためには、コンテンツページへのリンクが自サイト内や外部サイトに設置されているか、XMLサイトマップをGoogleに送信する必要があります。

クローリングではテキストデータで情報を読み込む

Googleのクローラーが取得できるファイルは多岐にわたります。

  • HTMLファイル
  • HTMLファイルで参照されるCSSやJavaScript
  • PDFファイル
  • WordやPowerPoint
  • テキストファイル
  • 画像/動画

重要なポイントは、クローラーが情報の多くをテキストデータで読み込み、取得しているということです。

画像や動画データも取得しますが、それが「どのような」画像・動画なのかを把握するためには、タグやコードなどのテキストデータを読み込む必要があります。Google側にコンテンツの内容を正確に伝えるためには、文章による説明や適切なタグの使用が重要です。

クローリングの頻度は高い方が良い

基本的に、クローリングは高い頻度で行われることが望ましいです。

その理由は、1回のクローリングでページやコンテンツの全ての情報を読み取ってもらえるわけではないからです。ユーザーの役に立つ質の高いコンテンツを制作した際に、それを「とても良いコンテンツだ!」とGoogle側に把握してもらうためには、何度もクローリングが行われる必要があります。

クローリング頻度に影響する要素は以下の通りです。

  • サイトの人気度(被リンクの多さなど)
  • 更新頻度
  • サイトやコンテンツの質
  • サイトのスピード

コンテンツの質を追求した上でクローリング最適化に取り組もう

コンテンツの質を追求した上でクローリング最適化に取り組もう

Googlebotに対して運営するサイトへのクローリングを促し、最適化することはSEO対策の一環です。

クローリングされなければWebサイトやコンテンツを検索結果に表示させることはできませんし、クローリングの頻度が低いと良質なコンテンツを作成しても正当な評価を得づらくなります。

ただし、重要な優先順位があります。

もしコンテンツの質を徹底的に追求できていないなら、まずはそちらを優先させてください。

その理由は明確です。コンテンツはユーザーの役に立つものでなければ意味がありません。Googleが質の低いコンテンツを検索上位に表示させることはありません。良質なコンテンツ作りは、SEO対策として真っ先に取り組む必要があります。

ユーザーのためにこだわって作成してきたコンテンツは、適切にクローリングが行われることで相応の評価を得やすくなります。

クローリング状況を確認する方法

クローリング状況を確認する方法

クローリングのための施策を実践する前後で、自サイトのクローリング状況を比較し効果を確認することが大切です。

方法1:Search Consoleで確認する

サイト全体のクローリング状況を確認する最も簡単な方法です。

手順:

  1. Search Consoleにアクセス
  2. 左サイドのメニューから「設定」をクリック
  3. ページ中ほどの「レポートを開く」をクリック

確認できる指標:

指標 説明
クロールリクエストの合計数 1日あたりのクロール数
合計ダウンロードサイズ クロール時に取得されたリソースのバイト数
平均応答時間 リソースの平均レスポンス時間

「クロールリクエストの合計数」はクローリング頻度を直接的に示す指標です。更新頻度やページ数の増加と共に、この数値が右肩上がりになることを目指しましょう。

方法2:Webサーバーのログで確認する

ページごとのクローリング履歴など、より細かいクローリング状況を確認したい場合は、Webサーバーのアクセスログを確認します。

アクセスログとは、Webサイトにどのようなアクセスがあったかを記録したログで、クローラーによるアクセスも記録されています。

確認手順は利用しているサーバーによって異なります。Xserver、ConoHa WING、ロリポップ!レンタルサーバー、さくらのレンタルサーバなど、各サーバーのマニュアルを参照してください。

1ヶ月間のアクセスログから情報を集計することで、どのページが何回クローリングされたかを把握し、次に行うべき施策の方針を決定できます。

  • 重要なコンテンツへのクロールが少ない → クローリング関連施策を見直す
  • 不要なページが頻繁にクローリングされている → クローリングを制御する

方法3:Google Bulk Inspect URLsで確認する

各ページが直近でいつクローリングされたかを確認したい場合は、「Google Bulk Inspect URLs」というツールが便利です。

このツールは本来、複数のWebページのインデックス状況をまとめて調べるものですが、調査結果で「直近のクローリング日時」も表示されます。

使い方:

  1. ツールにアクセスして「1.authorize」をクリック
  2. Search Consoleで使用しているGoogleアカウントを選択
  3. ツールのアクセスを承認
  4. 運用するWebサイトを選択
  5. 確認したいページのURLを入力(1行に1URLずつ)
  6. 「4.inspect URLs」をクリックして調査開始
  7. 結果の「last Crawl Time」列から最終クローリング日時を確認

1日に2,000URLまで確認でき、結果はCSV・Excel形式でダウンロードできます。

確認すべきポイントは以下の通りです。

  • 当月中に公開したコンテンツでクローリングが漏れているものはないか
  • クローリングがしばらく行われていない重要コンテンツはないか

クローリングさせるための方法

クローリングさせるための方法

方法1:XMLサイトマップを送信する

最も基本的な方法は、自サイトのXMLサイトマップをGoogleに送信することです。

XMLサイトマップとは、Webサイト内にどのようなページがあるかを検索エンジンに伝えるために設置するファイルです。

XMLサイトマップの効果:

  • クローラーが検出できていなかったサイトやページがクローリングされやすくなる
  • 重要なコンテンツをクローラーに伝えて効率的にクローリングしてもらえる

XMLサイトマップは、クローリングを促す方法であると同時に、最適なクローリングをしてもらう方法でもあります。

実施手順:

  1. XMLサイトマップを作成
  2. Search ConsoleからXMLサイトマップを送信

方法2:Search ConsoleのURL検査ツールを使う

ページ単位でクローリングを促したい場合は、Search ConsoleのURL検査ツールを使います。

このツールでは個々のページのインデックス登録をリクエストできます。インデックスに登録されるためにはクローリングが必要なので、インデックス登録リクエスト=クローリングも促せるということになります。

使用手順:

  1. Search Consoleにアクセス
  2. 画面上部の検索窓にクローリングしてもらいたいページのURLを入力
  3. 「インデックス登録をリクエスト」をクリック
  4. リクエスト完了

活用シーン:

  • 検索上位に表示させたいページがクローリングされていない場合
  • サイト全体のクローリングが活発ではなく、新しいコンテンツがクローリングされない場合

方法3:運営している別サイトにリンクを設置する

すでにインデックス登録されている別サイトを保有している場合は、そこにリンクを設置することでクローリングを促せます。

クローラーはすでにインデックスされているページに記載されたリンクを辿ってクローリングを行うため、他サイトにリンクを設置することで、リンク先のWebサイトがクローリングされる確率が高まります。

ただし、この方法は他の方法に比べて優先度が低く、運営している別サイトがペナルティを受けている場合は悪影響を受ける可能性があるため注意が必要です。

クローリングを最適化するために行うべきこと

クローリングを最適化するために行うべきこと

1. URLを正規化する

重要なページへのクローリング頻度を落とさないために、URLの正規化を行います。

URLの正規化とは、1つのページに対してURLが複数ある場合に、クローリングや評価の対象となるべき「正規のURL」を指定しておく施策です。

Googleは、単一のページに複数のURLが存在している場合、正規版と見なしたページ(URL)以外に対するクローリング頻度を減らします。重要ページへのクローリング頻度を減らさないように、元々定めていたURLを正規URLとして指定し、そのURLが重複版ではないことを示す必要があります。

実施方法:

  • canonicalタグの設置
  • 301リダイレクトの設定
  • alternateタグの設置
  • XMLサイトマップの設置

2. クローラーを制御する

必要に応じてクローラーを制御することも重要です。クローリングはどんなページにも高頻度で行われるべきではありません。

特に規模が10,000ページを超える(見込みの)サイトでは、重要度の低いページに対してクローリングを行わないよう制御し、重要なページが優先的にクローリングされるよう仕向けることが重要です。

方法1:robots.txtの設置

robots.txtとは、サイトの一番上の階層に設置するテキストファイルです。クローラーに対して「このページはクローリングしてはいけない」という命令を記述できます。

重要度の低いページ(上位表示させる必要のないページ・404ページ等)へのクローリングを拒否する際に使用します。

方法2:nofollowの記述

nofollowとは、HTMLファイルに記述するメタタグの一種です。クローラーに対して「このページにある全てのリンクを辿らない」「ある一つのリンクを辿らない」という指示ができます。

会員サイトのログイン以降のページや、ECサイトのショッピングカート以降のページなどに使用します。

3. クローリングを助ける内部リンクを設置する

クローラーの巡回経路となる内部リンクを設置する

サイト内の別ページへ遷移できる内部リンクを設置することで、クローリングの効率が向上します。クローラーはリンクを辿ってクローリングを行うため、回遊しやすいように内部リンクを設置すれば、サイト内がスムーズにクローリングされやすくなります。

適切なアンカーテキストを設定する

アンカーテキストとは、リンクが設定されたテキストのことです。サイト内の内部リンクのアンカーテキストが最適化されていれば、クローラーがサイトのテーマや階層構造を理解する手助けになり、効率的なクローリングに繋がります。

アンカーテキスト設定のポイント:

  • リンク先の内容が分かる説明的なテキストにする
  • キーワードを含める
  • 簡潔な内容にする

4. サーバースピードを改善する

サーバーの反応スピードを改善することも、クローリングの効率を高める要素となります。

Search Consoleでクローリング状況を確認した際に「平均応答時間」をチェックしてください。「平均応答時間」が数秒程度になっているなら、サーバースピードの改善(サーバーのスペックアップ)を検討しましょう。

5. 良質なコンテンツを作成する

良質なコンテンツの作成は、クローリングの最適化においても重要です。

ユーザーに喜ばれるコンテンツは、結果的にクローリングにも良い影響を与えます。Googleの公式見解でも「サイトの人気度」がクローリングの頻度に影響を及ぼすとされています。

また、ユーザーの役に立つコンテンツは被リンクの獲得にも大きく貢献します。被リンクにより、リンクを辿って行われるクローリングがさらに活性化します。

クローリングの最適化を考える上でも「コンテンツの質にこだわる」ことを徹底してください。

よくある質問(FAQ)

よくある質問(FAQ)

Q. クローリングされているのに検索結果に表示されないのはなぜ?

A. クローリングされた後、インデックス登録されるかどうかは別の問題です。コンテンツの品質が低い、重複コンテンツと判断されている、ペナルティを受けているなどの理由で、インデックスされないことがあります。Search Consoleの「ページ」レポートで状況を確認してください。

Q. クローリング頻度を上げる方法は?

A. XMLサイトマップの送信、内部リンクの最適化、コンテンツの定期的な更新、サイトスピードの改善などが有効です。ただし、最も効果的なのは良質なコンテンツを作り続け、被リンクを獲得することです。

Q. 小規模サイトでもクローリング最適化は必要?

A. 小規模サイトでは大規模サイトほど複雑な最適化は不要ですが、XMLサイトマップの送信や基本的な内部リンク構造の整備は行っておくべきです。サイトの成長に備えて、早い段階から基盤を整えておくことをおすすめします。

Q. robots.txtでクローリングを拒否したページはどうなる?

A. robots.txtでクローリングを拒否したページは、通常はインデックスされません。ただし、他のページからリンクされている場合、URLだけが検索結果に表示されることがあります。完全にインデックスから除外したい場合は、noindexメタタグの使用も検討してください。

まとめ:クローリング最適化でコンテンツをユーザーに届けよう

まとめ:クローリング最適化でコンテンツをユーザーに届けよう

この記事では、クローリングの仕組みと最適化方法について解説しました。

重要ポイント:

  • クローリングはSEOの出発点であり、検索結果に表示されるための必須条件
  • Googlebotはリンクを辿るか、XMLサイトマップを通じてページを検出する
  • クローリング頻度が高いほど、良質なコンテンツが正当に評価されやすい
  • Search Consoleで自サイトのクローリング状況を定期的に確認する
  • クローリング最適化の前提として、コンテンツの質を追求することが最優先

次のステップ:

  • Search Consoleでクローリング状況を確認する
  • XMLサイトマップを作成・送信する
  • 内部リンク構造を見直す
  • 重要ページへのクローリングが適切に行われているか確認する
  • サーバースピードをチェックし、必要に応じて改善する

クローリング最適化は、努力して作成した良質なコンテンツをユーザーに届けるための重要な施策です。コンテンツの質にこだわりながら、適切なクローリング最適化を行い、SEO成果を最大化しましょう。