Pythonでは、URLを操作するための標準モジュールが提供されています。その中でも、urllib
モジュールは特に重要で、URLを開いたり読み込んだりする機能や、URLをパースするための機能が含まれています。
urllibモジュールの主な機能
urllib.request
: 基本的な認証やリダイレクション、Cookieなどを使ったURLを開くことができます。urllib.parse
: URLを解析(パース)することで、クエリパラメータの値の変換やエンコード・デコードを簡単に行うことができます。
URLを開く
import urllib.request
url = 'https://google.com'
with urllib.request.urlopen(url) as res:
html = res.read()
print(html.decode())
上記のコードは、urlopen
関数を使ってURLを開き、read
関数を使ってBodyレスポンスを取得しています。
URLを解析する
from urllib.parse import urlparse
url = 'https://www.google.com/search?q=python+querystring'
obj = urlparse(url)
print(obj.query)
上記のコードは、urlparse
関数を使ってURLからクエリ部分を抽出しています。
クエリパラメータを辞書として変換
from urllib.parse import urlparse, parse_qs
url = 'https://www.google.com/search?q=python+querystring&test=hoge'
obj = urlparse(url)
queries = parse_qs(obj.query)
print(queries)
上記のコードは、parse_qs
関数を使ってクエリ文字列を辞書として変換しています。
以上がPythonでURLを操作する基本的な方法です。これらの知識を活用して、WebスクレイピングやAPIの呼び出しなど、様々な場面でPythonを活用してみてください。.