logblog

分析とかデータベースとかの関心ごと

GoogleAnalyticsでよく使う正規表現を理解しよう!

GoogleAnalyticsでよく使う正規表現を理解しよう!

分析しているとなにかと正規表現が必要になりますよね

GAでページのレポートでURLをまとめたり、参照元を指定したり、用途は様々だと思います。

 

今日はGoogleAnalyticsでよく使う正規表現を紹介します

まず覚えるのがこちらの方々

  1. ^
  2. $
  3. |
  4.  ( )
  5. *
  6. +
  7.  [ ]
  8. \

 

この9つだけ覚えればほとんどの表現できるはずです。
この6つを駆使してもなお表現できないものがあればコメント下さい。私がなんとかしましょう!

ではそれぞれの紹介をしましょう!

1.^

笑ってる目みたいなのやつは多分「ハット」って名前です。

先頭を指定する時に使います。例えば

/hatena/index.html

/blog/hatena

の上記2つみたいに同じディレクトを持つURLが複数ある時に

^/hatena/

と記述することで上の「/hatena/index.html」だけを表現することができます

2.$

ドルマークは最後を指定する時に使います。とても良く使います!

/sp/

/sp/hatena

みたいな感じで/sp/だけを指定したい時ってよくありますよね。

TOPページだけ指定したいんだって時ですよ。

そんなときは「$」で解決!

/sp/$

って書くだけです

3.|

この縦棒はorと同じ意味ですね

/sp/

/

上記みたいにスマホのTOPページとPCのTOPページが違う時ありますよね

^/$|^/sp/$

と書けば両方指定できちゃいます

4. ( )

 お次は()です。全角ダメですよ!半角ですよ!

()の中で括られているものは、正規表現をグループ化できます

^/$|^/sp/$

こういう重複表現がある時に便利。一括りにできちゃいます

^(/|/sp/)$

スッキリしましたね。

5・6・7.「.」と「*」と「+」

これは一度の覚えた方が楽ですね。

「.」は任意の1文字のことを表します。ほんとになんでもいいから1文字って意味

「*」は直前の文字が「0回以上」ある場合に使います。「0回以上」っていうのは注意です。直前の文字がないかもしれない時に使えます。

「+」は直前の文字が「1回以上」ある場合に使います。直前の文字が絶対に1回はあるよってときはこっちを使いましょう

 

なぜ一度で覚えたほうがいいかというと

.*

という風に使うことが多いからです。

/hatena/yugioh/blog

/hatena/yugi/blog

みたいに/hatena/のあとの何かがあってその後に/blog/があるURLを指定したい時は下記

/hatena/.*/blog

と記述すればいいわけですね。

 

8. [ ]

これは囲まれた文字が任意の文字列で含まれる場合に使います

/hatena/111

/hatena/112

/hatena/113

 みたいな感じで詳細ページとかがいっぱいある時

/hatena/[0-9]++

と書けば、3文字の数字が続くURLをまとめることができますね

9つの中には入れなかったですがこれ「-」も正規表現です。
数字とかアルファベットの範囲を決まるときしか使いません。したがって

[0-9]

[3-8]

[a-z]

[d-k]

みたいなやつしか使いみちないっすね。優先度低めっす。

 

9.\

最後はバックスペースです。これが厄介でエクセルとかだと¥マークになっちゃうのよ
¥マークでも機械は同じものと認識してくれるので安心してください

直後の文字は正規表現じゃありませんって意味です

よくutmパラメータとかをエスケープする時に使いますね。

\?utm~~~~

みたいな感じです。

「?」自体が正規表現であるってことを認識してくれるので置きましょう。

 

GA上ではどんな文字が正規表現なのって言うのは下記リンクに書いてあります!

https://support.google.com/analytics/answer/1034324?hl=ja

 

今回は以上ですが、実際に正規表現書いてて困ったらコメントしてみてください。

答えちゃいますよw