Pythonのurllib.request
モジュールは、URLを開くための強力なツールです。このモジュールを使うと、HTTP、HTTPS、FTPなどのさまざまなネットワークプロトコルを利用して、URLを開き、Webリソースを取得することができます。
urllib.request.urlopenの基本的な使い方
urllib.request.urlopen
関数は、URLを開くための最も基本的な方法です。以下にその基本的な使い方を示します。
import urllib.request
with urllib.request.urlopen('http://python.org/') as response:
html = response.read()
このコードは、指定したURL(この場合は ‘http://python.org/’)を開き、その内容を読み込んでいます。
ファイルにリソースを保存する
Webリソースを取得し、それを一時的な場所に保存したい場合は、以下のようにshutil.copyfileobj
関数とtempfile.NamedTemporaryFile
関数を使うことができます。
import shutil
import tempfile
import urllib.request
with urllib.request.urlopen('http://python.org/') as response:
with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
shutil.copyfileobj(response, tmp_file)
with open(tmp_file.name) as html:
pass
このコードは、指定したURLからリソースを取得し、それを一時的なファイルに保存しています。
以上がPythonのurllib.request
モジュールを使ったWebリソースの取得の基本的な方法です。これらの基本的な使い方をマスターすれば、Pythonを使ってWebスクレイピングを行う際の強力なツールとなります。