PythonとBeautifulSoupを使用してウェブサイトからPDFをダウンロードする方法について説明します。
まず、必要なライブラリをインポートします。ここでは、requests
とBeautifulSoup
を使用します。
import requests
from bs4 import BeautifulSoup
次に、PDFをダウンロードしたいウェブサイトのURLを指定します。
url = "https://www.example.com"
このURLからレスポンスオブジェクトを取得します。
response = requests.get(url)
次に、BeautifulSoupオブジェクトを作成します。これは、パースされたドキュメント全体を表します。
soup = BeautifulSoup(response.text, 'html.parser')
ウェブページ上のすべてのハイパーリンクを見つけます。
links = soup.find_all('a')
これらのリンクの中からPDFファイルのリンクを探します。
for link in links:
if ('.pdf' in link.get('href', [])):
# PDFファイルをダウンロードします。
以上がPythonとBeautifulSoupを使用してウェブサイトからPDFをダウンロードする基本的な手順です。このコードを適切にカスタマイズすることで、特定のウェブサイトから必要なPDFを効率的にダウンロードすることが可能になります。