この記事では、ソフト404 エラーと404エラーの違いと、これらの原因となる SEO 上の問題について対処方法を解説します。
ウェブブラウザで読み込まれるすべてのページには、HTTPヘッダーに含まれるHTTPステータスコードが存在しています(通常、ウェブページ自体には表示されません)。
このHTTPステータスコードには、様々な種類があります。最もよく知られているコードのひとつが、404ステータスコードです。
一般的に、400から499までのコードは、ページが読み込まれなかったことを示しています。404ステータスコードは、「ページが見つからない」「ページが存在しない」という意味で使用され、そのWebページがすでに削除されていることを表します。
ソフト404エラーとは?
ソフト404エラーは、ウェブブラウザに送信される正式なステータスコードではありません。Googleがクロールして独自に判断・分類したものに過ぎません。
Googleはページをクロールする際に、インデックスに登録する必要がないページについては、無駄にクロールしないよう、慎重にクロールリソースを配分しています。
しかし、ステータスコードが未設定で、見つからないページが本来404ステータスコードを示すべきなのに、200ステータスコードを返してしまう場合があります。
既に削除されたページで、ページ上に「ページが見つかりません」と明記されていても、ブラウザからは見えないHTTPヘッダーが200ステータスコードを表示すると、ページがインデックスされる可能性があります。この場合、削除された空白のページがインデックスされることとなり、Googleにとってはクロール・インデックスのリソースの無駄遣いになってしまうのです。
このような事象に対処するため、Googleは404ページの特徴に注目し、ステータスコードが404でない場合でもそのページが404に該当するようなページなのか、すなわち「インデックスに登録する必要がないページかどうか」を見分けようとします。
つまり、ステータスコードが404ではなくても、見た目が404ページのようで、404ページのように動作するならば、Googleはそのページを「404として扱うべきページ」であると判断します。そして、そのページを404ページと同じように扱います。
ソフト404と誤って判断される可能性
ページが実際に存在しているにも関わらず、ある特徴が引き金となって、Googleがそのページを「存在しないページ」として分類してしまうケースもあります。
誤って判断されるページの特徴として、ページのコンテンツが少ない、または不足しているケースや、サイト内に類似のページが多すぎるケースなどがあります。
これらは、Googleのパンダアルゴリズムによって判断されています。このアルゴリズムが適応されたパンダアップデートでは、薄いコンテンツや重複するコンテンツをランキングのマイナス要因として捉えます。
これらの問題を解決することは、ソフト404の解消だけでなく、パンダアルゴリズム対策の両方に対処することに繋がります。
404エラーの発生要因
404エラーの発生要因は、主に2つあります。
- リンクにエラーがあり、ユーザーを存在しないページに誘導している。
- リンク先が、以前は存在したが予期せず消えてしまったページになっている。
リンクのエラーの場合
404エラーの原因が、リンク設定しているURLの記述ミスである場合は、このリンクを修正すれば解消できます。
この作業で最も厄介なのは、サイト上のリンク切れをすべて見つけることです。
何千、何百万ページもあるような大規模で複雑なサイトでは、より困難な作業になります。このような大規模サイトの場合、クローリングツールが役に立ちます。DeepCrawl、Screaming Frog、BotifyなどのSEOツールを利用するのがおすすめです。
すでに存在しないページの場合
ページが存在しなくなった場合、その対処方法として、2つのケースが考えられます。
- ページを誤って削除した場合は、ページを復元する。
- ページを意図的に削除した場合は、最新のページもしくは類似するページ等に遷移するよう301リダイレクトを設定する。
この場合も、サイト上のすべてのリンクエラーを見つけなければなりません。
大規模サイトのリンクエラーをすべて見つけたい場合は、クローリングツールを使用する方が望ましいです。
ただし、クローリングツールでも、どのページからもリンクされていない孤立したページの場合は検出できないため、注意が必要です。
孤立したページの見つけ方
孤立したページは、かつてサイトの一部として機能していたものの、サイトのリニューアルやリンク先の変更を行うことで孤立してしまったケースがよくあります。
このような孤立ページを検出するツールについてご紹介します。
Google Search Console(サーチコンソール)
Google Search Consoleでは、クローラー(Google bot)が検出可能なすべてのページについて、クロールした際に404ページを検出します。
クローラーは、外部サイトからのリンクも辿ることができるため、孤立したページが過去に外部サイトからリンクされていた場合、検出できる可能性があります。
Google Analytics(Googleアナリティクス)
Google Analyticsでは、デフォルトでは孤立したページに関するレポートは用意されていません。
しかし、以下のように、いくつかの方法で調べることができます。
例えば、カスタムレポートを作成し、ページタイトルに「Error 404 – Page Not Found」と記載されているページを抽出することができます。
Google Analyticsで孤立したページを見つけるもう一つの方法として、カスタムコンテンツグループを作成し、すべての404ページをコンテンツグループに割り当てる方法があります。
検索演算子「site:」でGoogle検索
Google検索で「site:○○○.com」と検索すると、Googleにインデックスされている○○○.comのサイトの全ページが検索結果に表示されます。
もし孤立したページが、インデックスされている場合はこの結果に表示されます。404の場合、インデックスされていないケースが多いですが、孤立したページを発見することは可能です。
被リンク調査ツール
主要な被リンク調査ツール「Majestic、Ahrefs、Moz Open Site Explorer、Sistrix、LinkResearchTools、CognitiveSEO」が役に立ちます。
これらのツールのほとんどは、外部ドメインからリンクされている被リンクページの一覧をエクスポートできます。そこから、リンクされているすべてのページをチェックして、404 エラーを探すことができます。
ソフト404エラーの調査方法
前述したように、ソフト404はGoogleが独自にカテゴライズしているものに過ぎないため、クローラーツールなどを用いて検出することができませんできません。
ただし、ツールを用いて、以下のようなソフト404と判断され得る特徴について調査することは可能です。
内容が薄いコンテンツ
クローラーツールでは、ページ内のコンテンツ量が少ないかどうか判断するために必要な、文字数や単語数などを調査することが可能です。
これらの数が少ないページから順に、対策を講じていくのがおすすめです。
重複しているコンテンツ
クローラーツールの中には、ページの何パーセントがテンプレートコンテンツであるか判別できるものもあります。
メインコンテンツが、他の多くのページと同じような内容となっているページについては、コンテンツをユニーク化するなど、改善を図ってみましょう。
Google Search Consoleを用いる方法
クローラーツール以外にも、Google Search Consoleを使い、クロールエラーの項目を確認することで、ソフト404として表示されているページを見つけることができます。
ソフト404ページが検出されている場合は、改善対応が必要です。
ソフト404ページの改善
ソフト404ページの改善方法は、ほとんどの場合とても単純なものです。
具体的には、内容の薄いページをリッチにしたり、重複するコンテンツをユニークなものに置き換えたりといった対応となります。
これらの対応を行う際に、考慮すべき点をいくつか挙げてみます。
ページの統合
細かなトピックについて書かれているページが、内容の薄いコンテンツとなっている場合があります。
このようなケースでは、各コンテンツを統合して、1つのページにまとめてしまった方が良い場合があります。
この対応によって、内容の薄いページを改善できるだけでなく、重複するページを解消することにも繋がります。
たとえば、多くの色とサイズのシャツを販売しているECサイトでは、サイズと色の組み合わせごとに、それぞれ異なるURLのページを保有している場合があります。
この場合、個々のページの内容は薄く、ほぼ同じようなコンテンツを持つページとして大量に存在してしまいます。
このような場合のベストプラクティスは、これらの色・サイズ別に存在しているページ内のコンテンツを、すべて1つのページにまとめ、色・サイズの選択肢を1ページ内に整理してあげる方法となります。
異なるURLで同一コンテンツのページを制御
クローラーツールを使い、以下のようなURLパターンから、重複コンテンツの問題を発見することができます。
- 「www」の有無
- 「http」と「https」の違い
- 「index.html」の有無
- トラッキングパラメータの有無
このような「異なるURLで、同じコンテンツのページ」については、canonicalや301リダイレクトを用いた正規化を行いましょう。
Googleはソフト404と404を同等に扱う
Googleでは、ソフト404エラーと404エラーを同等のものとして扱います。
ソフト404は、本当の(ステータスコード上の)404エラーではありませんが、Googleはこれらのページを早期に修正しない場合、インデックスを解除します。
インデックスの解除を未然に防ぐため、定期的にサイトをクロールして、404エラーやソフト404エラーが発生していないかどうか、確認するようにしてください。