サーチコンソールで正規表現を使いこなす効果的な活用法

目次

はじめに

背景

Googleサーチコンソールは、サイトが検索でどのように表示されているかを把握する重要なツールです。その検索パフォーマンスレポートでは、検索クエリやページURLごとのデータを確認できますが、登録されたキーワードやURLが多いと目的の情報を探すのが大変です。

本記事の目的

本記事では、サーチコンソールの正規表現(RegEx)フィルタを使って、効率よくデータを絞り込む方法を分かりやすく解説します。基本的な記法から実際の抽出例、応用や注意点まで順に扱います。

読者に期待すること

初心者から中級者向けに、具体例を交えて説明します。例えば「特定の語を含む検索クエリをまとめて抽出する」「URLの一部に数字やカテゴリ名があるページだけを抽出する」といった実用的な使い方を学べます。

進め方

次章でサーチコンソール内で正規表現が使える場所と目的を説明し、その後に記法や応用例を順に紹介します。手を動かしながら試せるように、できるだけ具体的に示します。

サーチコンソールで正規表現が使える場所と目的

使える場所

Googleサーチコンソールでは、主に「検索パフォーマンス」レポート内で正規表現を使えます。画面上部の「新規」を押し、「検索キーワード(クエリ)」または「ページ」を選び、フィルタの最後にある「カスタム(正規表現)」を選択して条件を入力します。

目的(なぜ使うか)

正規表現を使うと、単純な部分一致より柔軟に抽出できます。たとえば、似た語句をまとめて調べたい、特定のディレクトリ下のページだけ分析したい、拡張子別のクリック数を出したい場合に役立ちます。

具体例

  • クエリで「レシピ」「料理」「クッキング」をまとめて抽出する:(レシピ|料理|クッキング)
  • サイト内のブログ全体を抽出する:^/blog/
  • PDFだけを抽出する:.pdf$

簡単な手順

  1. サーチコンソールで「検索パフォーマンス」を開く
  2. 「新規」→「検索キーワード」または「ページ」を選択
  3. 「カスタム(正規表現)」を選びパターンを入力
  4. 結果を確認し、必要なら条件を調整する

正規表現は強力ですが、書き方で結果が変わります。まずは簡単なパターンから試して慣れることをおすすめします。

正規表現の基本記法とサーチコンソールでの使い方

基本記法

  • |(パイプ): OR条件を作ります。例: apple|orange は「apple」または「orange」を一致させます。
  • .* : 任意の文字列を表します。例: news.*2024 は「news」+何か+「2024」を含む文字列にマッチします。
  • [] : 指定した文字のいずれかに一致します。例: gr[ae]y は「gray」または「grey」を拾います。
  • ^ : 文字列の先頭に一致します。例: ^/blog はURLが「/blog」で始まるページ。
  • $ : 末尾に一致します。例: /thank-you$ はURLが「/thank-you」で終わるページ。

サーチコンソールでの使い方

  • 「検索パフォーマンス」→「クエリ」や「ページ」でフィルタを選択し、正規表現モードに切り替えて入力します。
  • 表記揺れの吸収: color|colourgr[ae]y を使うと別表記をまとめて分析できます。

具体例

  • 複数ページをまとめる: ^/products/(apple|orange).* → /products/以下のappleまたはorange関連を一括集計。
  • 特定末尾だけ抽出: \.pdf$ → PDFファイルだけを抽出する(ドットはエスケープ)。

必要があれば、さらに実例や注意点を続けてご説明します。

OR条件・複数キーワードの抽出例

基本の使い方

OR条件は縦棒(|)を使います。例えば りんご|みかん とすると、検索クエリに「りんご」または「みかん」を含む行を抽出できます。Search Consoleではクエリやページのフィルタに正規表現を設定して使います。

グループ化の例

複数語の一部をまとめるには丸括弧でグループ化します。例えば (赤|青)りんご は「赤りんご」「青りんご」を両方拾います。長い候補を列挙するなら キーワードA|キーワードB|キーワードC とします。

複数ページをまとめて抽出

URLのバリエーションをまとめる例:
https://example\.com$|https://example\.com/index\.html
ここではドット(.)をバックスラッシュでエスケープし、$で行末を指定しています。

完全一致の例

行頭(^)と行末($)を組み合わせると完全一致になります。例:
^(検索順位 チェックツール|検索順位チェックツール)$
このパターンは両方の表記がまったく同じ場合だけ一致します。

実践のコツ

  • グループ化で読みやすく整理する。
  • ドットやスラッシュなどは必要に応じてエスケープする。
  • 少しずつテストして、意図した範囲だけ抽出されているか確認してください。

複雑なパターン抽出の応用例

両方の単語を含む抽出

複数の語を両方含むクエリを拾うには、語の間に「.*」を入れ、順序の両方をパイプで並べます。例: 検索.*順位|順位.*検索 は「検索」と「順位」がどちらも含まれるクエリを抽出します。語の間に別の語があってもヒットします。

一語の部分一致

一語だけを抽出したいときは単語そのものを書きます。例: 順位 とすると「○○順位」や「順位づけ」も部分一致で拾えます。

表記ゆれ・カタカナのまとめ分析

表記ゆれは「|」で列挙し、「?」や「.*」で揺れを吸収します。例: クレジッ?トカード|クレカ は「クレジットカード」「クレジトカード」「クレカ」をまとめて分析できます。全角/半角や長音(ー)の違いは複数パターンで列挙します。

順序を気にしない抽出の別案

三つ以上の語を順序に関係なく検出したいときは、それぞれの組み合わせを列挙します。例えば A・B・C を含む場合は A.*B.*C|A.*C.*B|B.*A.*C|... のように書きます。簡潔な記述は難しいですが確実です。

数字や記号を含むパターン

商品番号や年月などは文字クラスで指定します。例: 商品[0-9]+ は「商品123」を拾い、SKU 形式は SKU-[A-Z0-9]{6} のように書けます。

実例と注意点

URLを絞るには先頭を ^/blog/ のように固定できます。特殊文字(. + ? など)は必要に応じてエスケープしてください。複雑になると読みづらくなるので、まずシンプルに作って検証し、徐々に拡張することをおすすめします。

サーチコンソールで正規表現を活用するメリット

概要

サーチコンソールで正規表現を使うと、複数条件を同時に抽出でき、手作業でのチェックを大幅に減らせます。表記揺れや類似パターンを一括で扱えるため、網羅的なデータ取得が容易になります。

主なメリット

  • 複数条件の同時抽出
  • 一度に複数キーワードやパターンを抽出できます。検索クエリやURLをまとめて確認できるため、分析が速くなります。
  • 表記揺れ・類似パターンへの対応
  • 「商品A」「商品A」「product-a」など表記の違いを一つの式で拾えます。抜け漏れが減ります。
  • ページURLの統合分析
  • IDやページ番号で分かれたURLをまとめて扱えます。個別のページで分散しているデータを集約できます。
  • ノイズ排除による精度向上
  • 無関係な検索やトラッキングパラメータを除外して、本当に重要な指標に集中できます。

具体例(簡単)

  • OR条件: cats|dogs で猫と犬の両方を抽出
  • ページまとめ: ^/products/\d+ で製品ページをまとめて集計

活用のコツ

  • まずはシンプルな式から試し、結果を見て少しずつ広げます。間違いやすいのでテストを重ねると安心です。

注意点・よくあるミス

正規表現の記述ミスや条件のズレで、欲しいデータが抜けたり余計なデータが入ったりします。ここではよくあるミスと対処法を分かりやすくまとめます。

  • 完全一致と部分一致の混同
  • ^ と $ を使うと完全一致になります。これを入れないと部分一致扱いになり、想定外のURLやクエリが含まれます。

  • OR条件の誤り

  • foo|bar は期待通り動きますが、局所的に使うなら (foo|bar) のようにグループ化してください。グループ化しないと意図しない部分に適用されます。

  • エスケープ漏れ

  • . ? + * ( ) [ ] { } | \ は特別な意味を持ちます。リテラルのドットは . のように必ずエスケープします。

  • 貪欲マッチと過剰一致

  • . は広くマッチします。URL内でスラッシュを超えたくない場合は [^/] のように範囲指定を使ってください。

  • 大文字小文字の扱い

  • Search Console の「カスタム(正規表現)」は基本的に大文字小文字を区別します。区別したくない場合は (?i) を先頭に付けてください。

  • URLの正規化漏れ

  • トレーリングスラッシュやクエリパラメータの有無で別扱いになります。/page(?:/|$) のように余地を残すと安全です。

  • テスト不足

  • 小さなサンプルで何度もプレビューしてから本運用してください。誤ったパターンはデータ分析を誤らせます。

チェックリスト:
1) ^ と $ の要否を確認する
2) 特殊文字をエスケープする
3) (?: ) や ( ) で正しくグループ化する
4) (?i) で大文字小文字を統一できるか検討する
5) プレビューで期待結果を必ず確認する

上の点に注意すれば、漏れや誤抽出を大幅に減らせます。必要なら実例を元に一緒に確認します。

他ツールでの正規表現活用例(補足)

概要

GA4やLooker Studio、BigQueryなどでも正規表現を使えます。サーチコンソールで覚えたパターンは他ツールでも役立ちます。

GA4での使い方(例)

・イベント名やパラメータのフィルタに使えます。
・例:購入イベントだけを絞るなら ^(purchase|buy)_.* など。

Looker Studioでの使い方(例)

・カスタムフィールドでREGEXP_MATCHを使います。
・例:REGEXP_MATCH(PagePath, “^/blog/.*”) でブログページを抽出。

BigQueryやスクリプトでの例

・BigQuery: REGEXP_CONTAINS(url, r’^/blog/’)
・Python: re.search(r’^/blog/’, path)

互換性と注意点

・ツールによってサポートする正規表現の機能が異なります(後方参照や一部のアサーションなど)。
・まず小さなデータでテストし、エスケープが必要な文字に注意してください。

以上の点を押さえれば、サーチコンソールで学んだ正規表現を他ツールでも安全に活用できます。

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

目次