Pythonの標準ライブラリであるurllib
は、インターネット上のリソースを取得するためのモジュールです。この記事では、その基本的な使用方法について説明します。
urllibを使ったデータ取得
urllib.request
モジュールのurlopen
関数を使用してURLを開き、read
メソッドでHTMLを取得することができます。以下にその基本的なコードを示します。
import urllib.request
with urllib.request.urlopen('http://python.org/') as response:
html = response.read()
このコードは、指定したURLからリソースを取得し、その内容を変数html
に保存します。
データの一時保存
URLからリソースを取得し、それを一時的な場所に保存したい場合は、shutil.copyfileobj()
とtempfile.NamedTemporaryFile()
関数を使用します。以下にそのコードを示します。
import shutil
import tempfile
import urllib.request
with urllib.request.urlopen('http://python.org/') as response:
with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
shutil.copyfileobj(response, tmp_file)
with open(tmp_file.name) as html:
pass
このコードは、指定したURLからリソースを取得し、それを一時的なファイルに保存します。
以上がurllib
を使用したデータ取得の基本的な方法です。これらのコードを参考に、Pythonでのデータ取得を行ってみてください。