正規表現：「行頭」「行末」の表現と、応用例

最終更新：2018-07-20 by Joe

正規表現の基本、行頭（行の先頭）と行末（行の末尾）を表す表現です。

行頭（行の先頭）を表す正規表現

正規表現において、行頭（行の先頭）は「^」によって、その位置をマッチできます。「^」はキャレット、または、ハットと読みます。

「^（ハット、キャレット）」を使った正規表現の例

例えば下記は、行頭が「ラーメン」で始まる文字列全体をマッチします。

// 行頭が「ラーメン」で始まる文字列にマッチする正規表現
/^ラーメン.*/

// マッチする文字列
ラーメン大好き小池さん。

「^」は何らかの文字をマッチするのではなく「位置」をマッチする点に注意して下さい。正規表現では、このような位置を表す表現は、「位置指定子」や「アンカー」などと呼ばれます。

上記の例では、「.（ドット）」は「改行以外の１文字」を表し、また「*」は、直前のパターンの０回以上の連続（上記の例では「.」の連続）を表します。このような正規表現のメタ文字の一覧はこちらの記事に詳しくまとめました。

正規表現：メタ文字（特殊文字）の一覧

「^」という記号によって、文頭の「位置」を表せるんだね。

行頭の最初の１文だけをマッチさせる

「/^ラーメン.*。/」の正規表現を使って、下記について考えてみます。

「ラーメン大好き小池さん。昔ながらの愉快なキャラクターが人気です。」

先程の例は、文章の全体（ラーメン・・・人気です。）をマッチします。

// 行頭に「ラーメン」、「。」で終わる文字列にマッチする正規表現
/^ラーメン.*。/

// 対象文字列
ラーメン大好き小池さん。昔ながらの愉快なキャラクターが人気です。

// マッチする文字列
ラーメン大好き小池さん。昔ながらの愉快なキャラクターが人気です。

これは、正規表現がデフォルトで「最長一致（Greedy matching）」を探す特徴があるので、「.*」がマッチする文字列の中で、最も長いパターンを優先的にマッチするです。

でも、もし「ラーメン大好き小池さん。」という行頭から最初の１分だけをのマッチングを得たい時、「最短一致」を探す必要があります。

「最短一致（Non-greedy matching）」を探すには、量指定子「*」に「？」を組み合わせます。

// 行頭に「ラーメン」、「。」で終わる文字列で、最小のものにマッチする正規表現
/^ラーメン.*?。/

// 対象文字列
ラーメン大好き小池さん。昔ながらの愉快なキャラクターが人気です。

// マッチする文字列
ラーメン大好き小池さん。

最長・最短一致に関しては、こちらの記事もぜひご覧ください

正規表現：最短一致でマッチさせる表現

行末（行の末尾）を表す正規表現

行末（行の末尾）を表す位置指定子は「$」です。

「$」を使った正規表現の例

「大好きなのは、唐揚げ弁当。あと、のり弁も安いから好き。」で終了する文字列を探してみます。

// 行末に「。」マッチする正規表現
/.*。$/

// 処理対象文字列
大好きなのは、唐揚げ弁当。あと、のり弁も安いから好き。

// マッチする文字列
大好きなのは、唐揚げ弁当。あと、のり弁も安いから好き。

マッチングはうまくいきましたが、ただ、さきほどの例と同様、２つの文章を含むすべての文字列をマッチしてしまいます。

行末の最後の一文だけをマッチさせる

たとえば、すべての文字列でなく「あと、のり弁も安いから好き。」という行の末尾の後半の一文だけをマッチするように書き換えます。

試しに、これでどうでしょうか？

// 行末の最後の一文をマッチ？
/.*?。$/

// 処理対象文字列
大好きなのは、唐揚げ弁当。あと、のり弁も安いから好き。

// マッチする文字列
大好きなのは、唐揚げ弁当。あと、のり弁も安いから好き

これはうまく行きませんでした。

正規表現は左側から処理して行きますので、戻り方向（左方向）への最短を吟味しません。先に「.*?」が最初の文章全体をマッチしてしまいます。

このようなケースには工夫が必要です。

いくつか方法が考えられますが、下記は「否定の文字クラス」を利用した例です。「[^。]*」により、「。以外の一文字の連続」をマッチします。これにり、「。」で終わる行末の文字列でで、かつ、「。」を含まない連続がマッチできます。

// 「。」を含まない文章で、行末にある最後の１文「。」で終わる文章の正規表現
//[^。]*。$/u$/

// 処理対象文字列
大好きなのは、唐揚げ弁当。あと、のり弁も安いから好き。

// マッチする文字列
あと、のり弁も安いから好き。

うまくいきました。

下記の記事で、正規表現の「否定先読み」表現についてまとめています。

正規表現：文字列を「含まない」否定の表現まとめ

行末、行頭は、「^」「$」を使ってマッチすることが分かったけど、うまく応用する事が大事なんだね。

【補足】位置指定子（アンカー）について

文頭、文末をあらわす「^」「$」は、いずれも「位置」を限定し、それ自体は文字をマッチングしません。それゆえ、これらは「位置指定子」や「アンカー」と呼ばれています。

より複雑な位置指定子には、他に、下記のような物があります。

肯定先読み　　：　(?= 文字列)
肯定戻り読み　：　(?<= 文字列)
否定先読み　　：　(?! 文字列)
否定戻り読み　：　(?<! 文字列)

厳密には「位置指定子」ではないのですが、特定の位置をマッチングするために利用できます。

これらを初めて知った方は「なんなくこんな方法があるんだなあ」というくらいに覚えておくと良いと思います。きっと近い将来、役に立つでしょう。

正規表現：良く分かる、否定先読み・否定後読み。

いちおう、利用例をあげておきます。

「のり弁」を含む一文をマッチさせる

少しトリッキーですね。「一文」を「『。』の直後から、次の『。』まで」という前提にして「のり弁」を含む一文をマッチします。この文章が行頭にあるのか、行末にあるのかは、ケアしないので、「^」、「$」は利用できません。

// のり弁当を含み、「。＝で終わる１文。
/[^。]*(?=のり弁)[^。]*。*/

//　処理対象
大好きなのは、唐揚げ弁当。あと、のり弁当も安いから好き。好き好き〜。


// マッチング
あと、のり弁当も安いから好き。

参考リンク

正規表現に関連する記事です。

正規表現：文字列を「含まない」否定の表現まとめ

正規表現2021-12-18

この記事では、「任意の文字を含まない」や「任意の文字列（パターン）を含まない」など、否定の意味を持った正規表現について、解説します。特に、後述する「否定先読み・戻り読み」を利用し1

正規表現：数字の表現。桁数や範囲など

正規表現2023-03-26

正規表現での、数字に桁数に関する方法に関してです。また、これを応用して、数字の大きさの範囲を指定します。

git pull を強制し、リモートでローカルを上書きする方法

Git2021-05-11

git pull して、リモートブランチの最新に合わせようとしたら・・、あれ？コンフリクト・・？なにこれ、うまくいかない！「git push -f origin masterして強1

正規表現での、OR（いずれか、または）の表現方法

正規表現2021-05-01

正規表現にいて、複数のパターンのうち「いずれか、または」を意味する「OR」を表現する方法についてです。

.gitignore の書き方。ファイル/ディレクトリの除外

Git2021-12-10

.gitignoreの書き方と仕様を、具体例をまじえてまとめました。「あれ？うまく反映されない・・」など、gitの仕様の理解不足からくるトラブルも解決していきます。

git commit を取り消して元に戻す方法、徹底まとめ

Git2018-07-15

Git における、git commit の取り消し方法や、やり直し操作に関する方法をまとめました。Git はどんなコミットでもすべてを記録していますので、一度間違えたとしても、いつ1

正規表現に関連する記事

正規表現：文字列を「含まない」否定の表現まとめ

正規表現2021-12-18

正規表現：数字の表現。桁数や範囲など

正規表現2023-03-26

正規表現での、数字に桁数に関する方法に関してです。また、これを応用して、数字の大きさの範囲を指定します。

正規表現での、OR（いずれか、または）の表現方法

正規表現2021-05-01

正規表現にいて、複数のパターンのうち「いずれか、または」を意味する「OR」を表現する方法についてです。

正規表現：文字の「繰り返し」と、回数の指定

正規表現2018-07-15

正規表現において、特定の文字やパターンの繰り返しを記述するには、しばしば特殊文字「量指定子」を利用します。今回、量指定子を使った、文字の繰り返しの正規表現についてまとめました。

正規表現：前方一致・後方一致・部分一致（〜を含む）の表現

正規表現2018-07-18

正規表現における、前方一致（先頭一致）、また後方一致の表現方法です。

正規表現：文字数や、文字数の範囲を指定する表現

正規表現2021-06-16

正規表現で文字数や、文字数の範囲を指定してマッチングを行う方法と、サンプルをまとめました