Pythonでは、正規表現を用いてURLの一致チェックや抽出を行うことができます。以下にその方法を示します。
URLの一致チェック
Pythonのre
モジュールを使用して、文字列がURLかどうかをチェックすることができます。以下にそのサンプルコードを示します。
import re
pattern = "https?://[\\w/:%#\\$&\\?\\(\\)~\\.=\\+\\-]+"
url_list = ["https://qiita.com/", "ftp://hogehoge.com", "http://e-words.jp/"]
for url in url_list:
if re.match(pattern, url):
print("Is URL:" + url)
else:
print("Not URL:" + url)
このコードでは、re.match()
関数を使用して、URLが正規表現のパターンにマッチするかどうかを判断しています。
URLの抽出
文字列からURLを抽出するには、re.findall()
関数を使用します。以下にそのサンプルコードを示します。
import re
pattern = "https?://[\\w/:%#\\$&\\?\\(\\)~\\.=\\+\\-]+"
text = """QiitaのURLはhttps://qiita.com/です。 PyhtonのWikiは右のURLです。 https://ja.wikipedia.org/wiki/Python このテキストからURLを抽出します。 """
url_list = re.findall(pattern, text)
print(url_list)
このコードでは、re.findall()
関数を使用して、文字列から正規表現にマッチしたURLを全て抽出しています。
以上がPythonでURLの一致チェックと抽出を行う方法です。これらの方法は、ウェブスクレイピングなどで非常に役立ちます。ぜひ活用してみてください。