Googlebotとは、Googleのクローラ(クロール用bot)です。クローラはリンクを辿ってページからページへと遷移しWEBサイトを発見します。 しかし、無制限にクロールするわけではありません。各サイトごとにクロールバジェット(Googleからクロール量の割り当て)が与えられています。 パラメータを使用してページを自動的に生成している大規模サイトや動的サイトなどでは、クロールの必要がないコンテンツを伝えて、クロールの効率を高めることが必要になります。
WEBサイト内にマイナス要因となるような質の低いコンテンツが存在している場合、サイト全体の評価に悪影響を及ぼす可能性があります。 そのため、質の低いコンテンツを検索エンジンがクロール、インデックスしないようにGooglebotを制御する必要があります。 ユーザーには、見せたくないページなど、さまざまな状況に応じてGooglebotの動作を制限することが必要です。
Googlebotの動作を制限する方法
- HTMLのmeta robotsで指定する(HTMLファイル用)
- HTTPヘッダーのX-Robots-Tagで指定する(非HTMLファイル用)
- robots.txtファイルで指定する
Googlebotの制御方法
meta robotsとX-Robots-Tagは、Googlebotの行動や動作を制御する設定です。
ページで単位で指定できること
- インデックスさせたくないページ
- リンクを辿って欲しくないページ
HTMLのmeta robotsによる制御
meta robotsは、head要素内のmeta要素で、name属性にrobotsを指定し、content属性に制御内容(ディレクティブ)を記載します。 制御内容を設定するcontent属性はカンマで区切り、複数を組み合わせることができます。
meta robotsの基本的な記述
<head>
・・・・
<meta name="robots" content="noindex,nofollow">
・・・・
</head>
meta robotsの記述がなければindex/followがデフォルトの挙動となるため、index/followを設定する場合は、特にmeta robotsの記載は必要ありません。
meta robotsのcontent属性
content属性 | 制御内容 |
---|---|
index | ページをインデックスさせる |
follow | ページ上のa要素のリンクを辿らせる |
noindex | ページをインデックスさせない |
nofollow | ページ上のa要素のリンクを辿らせない |
nosnippet | 検索結果にスニペットを表示させない |
noarchive | ページのキャッシュを表示させない |
unavailable_after | 指定時刻を過ぎると検索結果にページを表示させない |
noimageindex | ページ上の画像をインデックスさせない |
notranslate | 異なる言語のユーザーがページを表示した際に自動翻訳を提供しない |
none | noindex,nofollowと同じ意味 |
robots.txtによるクロール制限
robots.txtは、クローラのアクセスを制限できる設定を記述するファイルです。 robots.txtの設置場所は、サイトのルートディレクトリ(h××ps://example.com/robots.txt)です。