PythonとBeautifulSoupを使用してウェブサイトからPDFファイルをダウンロードする方法について説明します。この記事は、PythonのライブラリであるBeautifulSoupを使用してHTMLやXMLファイルからデータを取り出す方法について説明します。
BeautifulSoupとは
BeautifulSoupは、HTMLやXMLファイルからデータを取り出すためのPythonライブラリです。BeautifulSoupは、お気に入りのパーサと一緒に使うことで、パースツリーをナビゲート、検索、修正するための直感的な方法を提供します。
PDFファイルのダウンロード
以下に、PythonとBeautifulSoupを使用してウェブサイトからPDFファイルをダウンロードするスクリプトの例を示します。
import requests
from bs4 import BeautifulSoup
# ターゲットのURL
url = "https://example.com"
# URLからHTMLを取得
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# PDFファイルのリンクを取得
pdf_links = [a['href'] for a in soup.find_all('a') if '.pdf' in a['href']]
# PDFファイルをダウンロード
for link in pdf_links:
response = requests.get(link)
with open(link.split('/')[-1], 'wb') as f:
f.write(response.content)
このスクリプトは、指定したURLのページからすべてのPDFファイルをダウンロードします。ダウンロードしたPDFファイルは、スクリプトが実行されているディレクトリに保存されます。
まとめ
この記事では、PythonとBeautifulSoupを使用してウェブサイトからPDFファイルをダウンロードする方法について説明しました。これらのツールを使用することで、ウェブスクレイピングの作業を効率的に行うことができます。