はじめに
背景
Googleサーチコンソールは、サイトが検索でどのように表示されているかを把握する重要なツールです。その検索パフォーマンスレポートでは、検索クエリやページURLごとのデータを確認できますが、登録されたキーワードやURLが多いと目的の情報を探すのが大変です。
本記事の目的
本記事では、サーチコンソールの正規表現(RegEx)フィルタを使って、効率よくデータを絞り込む方法を分かりやすく解説します。基本的な記法から実際の抽出例、応用や注意点まで順に扱います。
読者に期待すること
初心者から中級者向けに、具体例を交えて説明します。例えば「特定の語を含む検索クエリをまとめて抽出する」「URLの一部に数字やカテゴリ名があるページだけを抽出する」といった実用的な使い方を学べます。
進め方
次章でサーチコンソール内で正規表現が使える場所と目的を説明し、その後に記法や応用例を順に紹介します。手を動かしながら試せるように、できるだけ具体的に示します。
サーチコンソールで正規表現が使える場所と目的
使える場所
Googleサーチコンソールでは、主に「検索パフォーマンス」レポート内で正規表現を使えます。画面上部の「新規」を押し、「検索キーワード(クエリ)」または「ページ」を選び、フィルタの最後にある「カスタム(正規表現)」を選択して条件を入力します。
目的(なぜ使うか)
正規表現を使うと、単純な部分一致より柔軟に抽出できます。たとえば、似た語句をまとめて調べたい、特定のディレクトリ下のページだけ分析したい、拡張子別のクリック数を出したい場合に役立ちます。
具体例
- クエリで「レシピ」「料理」「クッキング」をまとめて抽出する:(レシピ|料理|クッキング)
- サイト内のブログ全体を抽出する:^/blog/
- PDFだけを抽出する:.pdf$
簡単な手順
- サーチコンソールで「検索パフォーマンス」を開く
- 「新規」→「検索キーワード」または「ページ」を選択
- 「カスタム(正規表現)」を選びパターンを入力
- 結果を確認し、必要なら条件を調整する
正規表現は強力ですが、書き方で結果が変わります。まずは簡単なパターンから試して慣れることをおすすめします。
正規表現の基本記法とサーチコンソールでの使い方
基本記法
|(パイプ): OR条件を作ります。例:apple|orangeは「apple」または「orange」を一致させます。.*: 任意の文字列を表します。例:news.*2024は「news」+何か+「2024」を含む文字列にマッチします。[]: 指定した文字のいずれかに一致します。例:gr[ae]yは「gray」または「grey」を拾います。^: 文字列の先頭に一致します。例:^/blogはURLが「/blog」で始まるページ。$: 末尾に一致します。例:/thank-you$はURLが「/thank-you」で終わるページ。
サーチコンソールでの使い方
- 「検索パフォーマンス」→「クエリ」や「ページ」でフィルタを選択し、正規表現モードに切り替えて入力します。
- 表記揺れの吸収:
color|colourやgr[ae]yを使うと別表記をまとめて分析できます。
具体例
- 複数ページをまとめる:
^/products/(apple|orange).*→ /products/以下のappleまたはorange関連を一括集計。 - 特定末尾だけ抽出:
\.pdf$→ PDFファイルだけを抽出する(ドットはエスケープ)。
必要があれば、さらに実例や注意点を続けてご説明します。
OR条件・複数キーワードの抽出例
基本の使い方
OR条件は縦棒(|)を使います。例えば りんご|みかん とすると、検索クエリに「りんご」または「みかん」を含む行を抽出できます。Search Consoleではクエリやページのフィルタに正規表現を設定して使います。
グループ化の例
複数語の一部をまとめるには丸括弧でグループ化します。例えば (赤|青)りんご は「赤りんご」「青りんご」を両方拾います。長い候補を列挙するなら キーワードA|キーワードB|キーワードC とします。
複数ページをまとめて抽出
URLのバリエーションをまとめる例:
https://example\.com$|https://example\.com/index\.html
ここではドット(.)をバックスラッシュでエスケープし、$で行末を指定しています。
完全一致の例
行頭(^)と行末($)を組み合わせると完全一致になります。例:
^(検索順位 チェックツール|検索順位チェックツール)$
このパターンは両方の表記がまったく同じ場合だけ一致します。
実践のコツ
- グループ化で読みやすく整理する。
- ドットやスラッシュなどは必要に応じてエスケープする。
- 少しずつテストして、意図した範囲だけ抽出されているか確認してください。
複雑なパターン抽出の応用例
両方の単語を含む抽出
複数の語を両方含むクエリを拾うには、語の間に「.*」を入れ、順序の両方をパイプで並べます。例: 検索.*順位|順位.*検索 は「検索」と「順位」がどちらも含まれるクエリを抽出します。語の間に別の語があってもヒットします。
一語の部分一致
一語だけを抽出したいときは単語そのものを書きます。例: 順位 とすると「○○順位」や「順位づけ」も部分一致で拾えます。
表記ゆれ・カタカナのまとめ分析
表記ゆれは「|」で列挙し、「?」や「.*」で揺れを吸収します。例: クレジッ?トカード|クレカ は「クレジットカード」「クレジトカード」「クレカ」をまとめて分析できます。全角/半角や長音(ー)の違いは複数パターンで列挙します。
順序を気にしない抽出の別案
三つ以上の語を順序に関係なく検出したいときは、それぞれの組み合わせを列挙します。例えば A・B・C を含む場合は A.*B.*C|A.*C.*B|B.*A.*C|... のように書きます。簡潔な記述は難しいですが確実です。
数字や記号を含むパターン
商品番号や年月などは文字クラスで指定します。例: 商品[0-9]+ は「商品123」を拾い、SKU 形式は SKU-[A-Z0-9]{6} のように書けます。
実例と注意点
URLを絞るには先頭を ^/blog/ のように固定できます。特殊文字(. + ? など)は必要に応じてエスケープしてください。複雑になると読みづらくなるので、まずシンプルに作って検証し、徐々に拡張することをおすすめします。
サーチコンソールで正規表現を活用するメリット
概要
サーチコンソールで正規表現を使うと、複数条件を同時に抽出でき、手作業でのチェックを大幅に減らせます。表記揺れや類似パターンを一括で扱えるため、網羅的なデータ取得が容易になります。
主なメリット
- 複数条件の同時抽出
- 一度に複数キーワードやパターンを抽出できます。検索クエリやURLをまとめて確認できるため、分析が速くなります。
- 表記揺れ・類似パターンへの対応
- 「商品A」「商品A」「product-a」など表記の違いを一つの式で拾えます。抜け漏れが減ります。
- ページURLの統合分析
- IDやページ番号で分かれたURLをまとめて扱えます。個別のページで分散しているデータを集約できます。
- ノイズ排除による精度向上
- 無関係な検索やトラッキングパラメータを除外して、本当に重要な指標に集中できます。
具体例(簡単)
- OR条件: cats|dogs で猫と犬の両方を抽出
- ページまとめ: ^/products/\d+ で製品ページをまとめて集計
活用のコツ
- まずはシンプルな式から試し、結果を見て少しずつ広げます。間違いやすいのでテストを重ねると安心です。
注意点・よくあるミス
正規表現の記述ミスや条件のズレで、欲しいデータが抜けたり余計なデータが入ったりします。ここではよくあるミスと対処法を分かりやすくまとめます。
- 完全一致と部分一致の混同
-
^ と $ を使うと完全一致になります。これを入れないと部分一致扱いになり、想定外のURLやクエリが含まれます。
-
OR条件の誤り
-
foo|bar は期待通り動きますが、局所的に使うなら (foo|bar) のようにグループ化してください。グループ化しないと意図しない部分に適用されます。
-
エスケープ漏れ
-
. ? + * ( ) [ ] { } | \ は特別な意味を持ちます。リテラルのドットは . のように必ずエスケープします。
-
貪欲マッチと過剰一致
-
. は広くマッチします。URL内でスラッシュを超えたくない場合は [^/] のように範囲指定を使ってください。
-
大文字小文字の扱い
-
Search Console の「カスタム(正規表現)」は基本的に大文字小文字を区別します。区別したくない場合は (?i) を先頭に付けてください。
-
URLの正規化漏れ
-
トレーリングスラッシュやクエリパラメータの有無で別扱いになります。/page(?:/|$) のように余地を残すと安全です。
-
テスト不足
- 小さなサンプルで何度もプレビューしてから本運用してください。誤ったパターンはデータ分析を誤らせます。
チェックリスト:
1) ^ と $ の要否を確認する
2) 特殊文字をエスケープする
3) (?: ) や ( ) で正しくグループ化する
4) (?i) で大文字小文字を統一できるか検討する
5) プレビューで期待結果を必ず確認する
上の点に注意すれば、漏れや誤抽出を大幅に減らせます。必要なら実例を元に一緒に確認します。
他ツールでの正規表現活用例(補足)
概要
GA4やLooker Studio、BigQueryなどでも正規表現を使えます。サーチコンソールで覚えたパターンは他ツールでも役立ちます。
GA4での使い方(例)
・イベント名やパラメータのフィルタに使えます。
・例:購入イベントだけを絞るなら ^(purchase|buy)_.* など。
Looker Studioでの使い方(例)
・カスタムフィールドでREGEXP_MATCHを使います。
・例:REGEXP_MATCH(PagePath, “^/blog/.*”) でブログページを抽出。
BigQueryやスクリプトでの例
・BigQuery: REGEXP_CONTAINS(url, r’^/blog/’)
・Python: re.search(r’^/blog/’, path)
互換性と注意点
・ツールによってサポートする正規表現の機能が異なります(後方参照や一部のアサーションなど)。
・まず小さなデータでテストし、エスケープが必要な文字に注意してください。
以上の点を押さえれば、サーチコンソールで学んだ正規表現を他ツールでも安全に活用できます。












