\

Pythonでは、正規表現を用いてURLの一致チェックや抽出を行うことができます。以下にその方法を示します。

URLの一致チェック

Pythonのreモジュールを使用して、文字列がURLかどうかをチェックすることができます。以下にそのサンプルコードを示します。

import re

pattern = "https?://[\\w/:%#\\$&\\?\\(\\)~\\.=\\+\\-]+"
url_list = ["https://qiita.com/", "ftp://hogehoge.com", "http://e-words.jp/"]

for url in url_list:
    if re.match(pattern, url):
        print("Is URL:" + url)
    else:
        print("Not URL:" + url)

このコードでは、re.match()関数を使用して、URLが正規表現のパターンにマッチするかどうかを判断しています。

URLの抽出

文字列からURLを抽出するには、re.findall()関数を使用します。以下にそのサンプルコードを示します。

import re

pattern = "https?://[\\w/:%#\\$&\\?\\(\\)~\\.=\\+\\-]+"
text = """QiitaのURLはhttps://qiita.com/です。 PyhtonのWikiは右のURLです。 https://ja.wikipedia.org/wiki/Python このテキストからURLを抽出します。 """

url_list = re.findall(pattern, text)
print(url_list)

このコードでは、re.findall()関数を使用して、文字列から正規表現にマッチしたURLを全て抽出しています。

以上がPythonでURLの一致チェックと抽出を行う方法です。これらの方法は、ウェブスクレイピングなどで非常に役立ちます。ぜひ活用してみてください。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です