Googlebotとは?仕組みと制御の方法を解説

Googlebotとは、Googleのクローラ(クロール用bot)です。クローラはリンクを辿ってページからページへと遷移しWEBサイトを発見します。 しかし、無制限にクロールするわけではありません。各サイトごとにクロールバジェット(Googleからクロール量の割り当て)が与えられています。 パラメータを使用してページを自動的に生成している大規模サイトや動的サイトなどでは、クロールの必要がないコンテンツを伝えて、クロールの効率を高めることが必要になります。

WEBサイト内にマイナス要因となるような質の低いコンテンツが存在している場合、サイト全体の評価に悪影響を及ぼす可能性があります。 そのため、質の低いコンテンツを検索エンジンがクロール、インデックスしないようにGooglebotを制御する必要があります。 ユーザーには、見せたくないページなど、さまざまな状況に応じてGooglebotの動作を制限することが必要です。

Googlebotの動作を制限する方法

  • HTMLのmeta robotsで指定する(HTMLファイル用)
  • HTTPヘッダーのX-Robots-Tagで指定する(非HTMLファイル用)
  • robots.txtファイルで指定する

Googlebotの制御方法

meta robotsとX-Robots-Tagは、Googlebotの行動や動作を制御する設定です。

ページで単位で指定できること

  • インデックスさせたくないページ
  • リンクを辿って欲しくないページ

HTMLのmeta robotsによる制御

meta robotsは、head要素内のmeta要素で、name属性にrobotsを指定し、content属性に制御内容(ディレクティブ)を記載します。 制御内容を設定するcontent属性はカンマで区切り、複数を組み合わせることができます。

meta robotsの基本的な記述

<head>
・・・・
<meta name="robots" content="noindex,nofollow">
・・・・
</head>

meta robotsの記述がなければindex/followがデフォルトの挙動となるため、index/followを設定する場合は、特にmeta robotsの記載は必要ありません。

meta robotsのcontent属性

content属性 制御内容
index ページをインデックスさせる
follow ページ上のa要素のリンクを辿らせる
noindex ページをインデックスさせない
nofollow ページ上のa要素のリンクを辿らせない
nosnippet 検索結果にスニペットを表示させない
noarchive ページのキャッシュを表示させない
unavailable_after 指定時刻を過ぎると検索結果にページを表示させない
noimageindex ページ上の画像をインデックスさせない
notranslate 異なる言語のユーザーがページを表示した際に自動翻訳を提供しない
none noindex,nofollowと同じ意味

robots.txtによるクロール制限

robots.txtは、クローラのアクセスを制限できる設定を記述するファイルです。 robots.txtの設置場所は、サイトのルートディレクトリ(h××ps://example.com/robots.txt)です。