Pythonのre
モジュールを使用して、全角の日本語文字と英数字にマッチする正規表現を作成する方法を紹介します。具体的には、Unicodeのカテゴリを使用します。
Unicodeのカテゴリ
Unicodeのカテゴリp {L}
は文字のカテゴリ(Letter)に一致し、p {N}
は数字のカテゴリ(Number)に一致します。これらを使用して、全角の日本語文字と英数字に一致するパターンを作成できます。
正規表現の例
以下は、全角の日本語文字と英数字に一致する正規表現の例です:
import re
text = "日本語ABC123漢字"
pattern = r'[p {L}p {N}]+'
matches = re.findall(pattern, text)
for match in matches:
print(match)
この正規表現パターン[p {L}p {N}]+
は、文字クラス[]
を使用して、文字カテゴリp {L}
(文字)またはp {N}
(数字)に一致する1文字以上の文字列を検索します。したがって、日本語の文字、英字、数字が含まれているテキスト内のすべての文字列を一致させます。
この正規表現を使用することで、全角の日本語文字と英数字を含むテキスト内の適切な箇所を一致させることができます。