Googleクローラーを呼ぶ方法や拒否する方法はある？

Webサイト制作・運用

公開日:2019.08.08 更新日:2023.04.26

SEO対策はWebマーケティングの根幹にかかわる作業です。そのためには、検索順位とクローラーの関係性について理解を深めることが必須です。検索エンジンにはクローラーの存在が欠かせません。クローラーがインターネット上を絶えず回ってデータを集めているからです。データを吸い上げられると、公開前のページでも検索結果に表示されてしまうので、クローラーに見つからないようにする技も同時に身につけておきましょう。

サイトはクローラーにインデックスされる必要がある

クローラーとは、検索エンジンが情報を収集するためのプログラムのこと。一定のアルゴリズムに基づいて、www（ワールド・ワイド・ウェブ）上にあるテキストや画像、PDFなどのデータを集めます。クローラーが無数のWebサイトからデータを集めて回る作業を「クローリング」と呼びます。

クローリングされたデータはいったん検索エンジン内に蓄積されると、インデクサによって処理しやすい形に整理されていきます。この集まりを「インデックス」、集めたデータを並び替えて格納していくプロセスを「インデックス化」「インデックスされる」などといいます。インデックスがなければ、検索エンジンは機能しません。また、データがインデックスに収納されなかったサイトは、検索を行っても、結果画面上には上がってきません。検索エンジンはインデックスされたデータを元にしてサイトの信用性を判断し、検索順位を定めています。つまり、Webマーケティングで検索順位を上げようとすれば、クローラーにデータが正しくインデックスされる必要があるのです。

検索順位の基準はアルゴリズムによって定められています。大前提として、サイトに載っているコンテンツが「ネットユーザーにとって有益なもの」とみなされることが検索上位に食い込むための基本。ネットで検索する人は、何らかの問題に対する解決方法を知りたいと思っています。サイトのコンテンツがユーザーに適切な答えを与えていると認められれば、検索順位は上がっていくでしょう。

かつては、SEO対策として検索頻度の高いキーワードを羅列するだけのサイトも目立ちました。しかし、プログラムの進化により、こうしたサイトへの対処も進んでいます。現在は単語だけでなく、文脈や意味まで読み取って、総合的にサイトの信用性を見定め、優良と悪質の線引きをしています。キーワードだけに頼っているサイトは、SEO対策どころか、全くの逆効果になってしまうのです。

そのほか、信頼度の高いサイトから被リンクを得られることで、サイトの評価は高まります。クローラーはサイトに張られたリンク先までチェックしています。優良サイトからリンクを張られるということは、優良サイトがサイトの品質を保証したとクローラーは捉えるのです。そのため、小手先のSEO対策から入るのではなく、質の高いコンテンツを豊富に提供するサイトを作ることを前提としたSEO対策を考えるようにしましょう。

日本ではGoogleクローラーが最も重要といえる

日本国内で、最も影響力を持つクローラーとして挙げられるのが、Googleが開発したクローラーです。開発当初、Googleのみに用いられていましたが、2019年現在、Yahoo！にも適用されています。2019年1月時点で、デスクトップにおけるGoogleのシェアは78.23%と単独でも首位を実現していますが、そこに日本では根強い人気を誇るYahoo！が加わると8割超。日本でWebマーケティングについて考える際にはGoogleクローラーの存在は無視できないのです。

役割や機能は他のクローラーと基本的には同じです。200以上ものGoogleのアルゴリズムを元に、クローリングするサイトやその頻度、各サイトから取得するページ数が決定されます。WebマーケティングではGoogleクローラーが巡回しやすいサイトをデザインするのが鉄則です。Googleクローラーのシステムを理解することは、Webマーケティングの成功につながります。

クローラーの巡回（クロール）頻度が少ないサイトもある

検索エンジンで運営するサイトを検索したときに、検索上位どころか、検索結果になかなか表示されない場合もありますが、それはクローリングの回数が少ないときに現れる症状です。クローラーはネット上にある無数のサイトを巡回しています。しかし、ごく稀にクローラーがたどりつけないサイトや、訪問の回数が少ないサイトが出てきます。その場合、内容を一新してもクローラーに気づかれないなどといった理由で、検索結果に反映されません。

早くインデックスされるためにGoogleクローラーを呼ぶ

サイトのアクセス数アップには、Googleクローラーの訪問は欠かせません。しかし、ただ待っているだけでは、クローリングが行われない恐れもあります。そこで、自らGoogleクローラーを呼ぶ努力も必要です。

なぜ、サイトを放置してはいけないのかというと、クローリングの頻度はURLによって大きく差が出るからです。次の巡回までにインターバルが6カ月以上も空くこともあります。もちろん、その間に更新されたすべての情報は検索エンジンに反映されません。どんなに有益な情報を載せていたとしても、ネットユーザーの元には届かないのです。Webマーケティングの世界では大打撃になるので、クローラーに働きかけることが大切です。

Googleクローラーを呼ぶ方法

まずは、自社サイトのURLを検索エンジンに入力してみましょう。ここで検索結果に表示されれば、少なくともクローリングが行われている証です。検索結果に上がってこなかったら、巡回自体がされていないということなので、早急に呼び寄せる必要があります。

サイトマップの送信

クローリングを希望する方法はいくつかありますが、その中のひとつに「サイトマップを作る」ことがあります。クローリングが行われない原因として、「階層が多重になりすぎている」ことが挙げられます。サイトの構造はシンプルであるほど、ネットユーザーにとって見やすいものになりますが、それはクローラーにとっても同じです。クローラーは、重要な情報にたどりつくまで「トップページから2クリック」を目安にしています。つまり、3つ以上の階層にもぐらないと情報を得られないサイトではクローラーはどこを回ればいいかわからなくなり、そのまま通過してしまうのです。

そこで、最初に「見てほしいページ」を絞り込みましょう。そして、該当ページのURLをそれぞれ取得します。そのうえで、サイトマップの作成を考えていきます。サイトマップとは、サイトの目次のことです。サイトマップは、どんなテキストや画像、動画があるのかをGoogleクローラーに教える役割を果たします。前もってサイトの構造を伝えておけば、クローラーがサイトを素通りすることが防げます。専用ツールを使えば、サイトマップの作成はそれほど難しい作業ではありません。サイトマップが作れたら、ページのリストを圧縮したうえでGoogleに送信しましょう。サイトマップに問題がなければ、検索エンジンはインデックス化してくれるでしょう。

URL検査ツールの利用

「Google Search Console」の「URL検査」を利用する方法もひとつの手です。調べたいサイトのURLを打ち込み、「インデックス登録をリクエスト」ボタンをクリックすると、2週間以内を目安としてクローラーが回ってきてくれます。URL検査では、入力されたURL においてインデックスに明らかな問題がないことをライブテストで確認します。問題が検出されなければ、該当のページがインデックス登録のキューに追加されます。ページに問題が見つかった場合は、問題となる箇所を修正しましょう。その後、ふたたび調べたいサイトを検索して、検索エンジンに引っかかるかどうかをチェックします。検索結果に上がればクローラーが巡回に来たことを示していますし、まだ反映されていないようなら、再度、リクエストを行ってもいいでしょう。

Googleクローラーは拒否することもできる

マーケティングだけを考えれば、クローリング回数が増えれば増えるほどSEO対策にはなります。しかし、「まだテスト公開の段階にあるページ」のように、Googleクローラーによるデータのインデックス化を拒否したいケースもあるでしょう。十分なコンテンツがないページをインデックス化されると評価の低下を招くことにつながりますし、期間限定キャンペーンなどページによっては競合に内容を知られたくないものが期間前にバレてしまうことにもつながります。このような場合は、正式にサイトがオープンするまでは、なるべく検索エンジンに引っかかってほしくないところです。

そのほかにも、「運営だけが閲覧できるページ」についても、見られたくはないページです。運営画面はサイトのセキュリティを担う重要な部分です。普通に検索できてしまえば、自社サイトで保持している情報が漏えいしかねません。「閲覧制限のかかっているページ」も同様です。特定の会員など、条件を満たした人しか入れないサイトもクローラーから遠ざけなければいけません。これらの例外については、「クローラーを拒む」ことで対応可能です。

Googleクローラーを拒否する方法

自社サイトのURLをブロックすると、クローリングは行われなくなります。ページごとに重複している内容が多い場合には、一部を切り捨てるというのもブロックする方法としては有効です。どのページでも似たような内容が書かれているとすれば、クローラーは「完成度の低いサイト」と結論づけ、検索順位を落とすよう働きかけてしまいます。

「メタタグ」を有効活用するのも便利です。HTMLコードにメタタグを挿入すると、検索エンジンには引っかからなくなります。なぜなら、クローラーがタグを感知したとしても、ほかのサイトがページにつながっているかどうかを判断できなくなるからです。この方法で、クローラーを拒否したいページは検索結果から完全に除外されます。また、手軽な手段として、「ディレクトリにURLを保存」する方法も効率的です。クローラーはサーバーによって保護されている領域には立ち入れません。

クローラー対策は、サイトを世間に広めるためには不可欠です。一方で、すべてのページがクローリングされていいわけではありません。まだ十分に内容が整っていないサイトをクローリングされたとしても、自社の運営するサイトの評価を落とすだけです。ページの公開前には、必ずクローリングを拒む対策もとっておきましょう。

Webサイトの基本は「ユーザーの求める情報を与えて問題の解決へと導くこと」です。コンテンツが有用であれば、検索順位も高くなっていく可能性が大です。それでも、サイトを立ち上げてしばらくはアクセスが伸びずに苦労することも出てくるでしょう。そんなときには、自らGoogle側に働きかけることも重要です。サイトは作るだけで放置せず、ユーザーが集客できるまでのプロセスも考えましょう。