PythonでWebスクレイピングを行う際には、プロキシの設定が必要になることがあります。特に、アクセス制限を受けてしまった場合や、複数のオーガニックユーザーに見せかけるためには、プロキシを経由することが有効です。
プロキシの設定方法
Pythonのrequests
ライブラリを使用してプロキシを設定することができます。以下にそのサンプルコードを示します。
import requests
proxies = {
"http": "http://proxy.-----.co.jp/proxy.pac",
"https": "http://proxy.-----.co.jp/proxy.pac"
}
r = requests.get('https://github.com/timeline.json', proxies=proxies)
print(r.text)
このコードでは、requests.get
関数のproxies
パラメータにプロキシ設定を渡しています。この設定により、指定したURLへのリクエストがプロキシ経由で行われます。
複数のプロキシを使用する
一つのプロキシだけを使用すると、そのプロキシがアクセス制限を受けてしまうリスクがあります。そのため、複数のプロキシをランダムに利用することが推奨されます。以下にそのサンプルコードを示します。
import requests
import random
proxy_list = [
{"ip": "ip1", "port": "port1", "protocol": "http"},
{"ip": "ip2", "port": "port2", "protocol": "http"},
# 他のプロキシ情報...
]
proxy_info = random.choice(proxy_list)
proxy = proxy_info["protocol"] + "://" + proxy_info["ip"] + ":" + proxy_info["port"]
proxies = {
"http": proxy,
"https": proxy
}
r = requests.get('https://github.com/timeline.json', proxies=proxies)
print(r.text)
このコードでは、複数のプロキシからランダムに一つを選択し、そのプロキシを使用してリクエストを行っています。
以上、PythonでWebスクレイピングを行う際のプロキシの使用方法について説明しました。これらの方法を活用することで、より効率的なスクレイピングが可能となります。.