PythonでWebスクレイピングを行い、その結果をCSVファイルに保存する方法を紹介します。この記事では、以下の3つのステップに分けて説明します。
- データの抽出: まずは、Webサイトから必要なデータを抽出します。このステップでは、
requests
とBeautifulSoup
ライブラリを使用します。
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
- ヘッダーの作成: 次に、CSVファイルのヘッダー部分を作成します。ヘッダーは、CSVファイルの各列が何を表しているのかを示すために必要です。
HEADER = ['name', 'age', 'occupation', 'url']
- データの保存: 最後に、抽出したデータをCSVファイルに書き込みます。このステップでは、Pythonの
csv
ライブラリを使用します。
import csv
with open('output.csv', 'w', newline='') as f:
writer = csv.writer(f)
writer.writerow(HEADER)
writer.writerow(['John Doe', '30', 'Engineer', 'https://example.com/john_doe'])
以上がPythonでWebスクレイピングを行い、その結果をCSVファイルに保存する基本的な手順です。この方法を使えば、Webサイトから大量のデータを効率的に収集し、整理することが可能になります。
なお、Webスクレイピングを行う際には、対象となるWebサイトの利用規約を確認し、適切な方法で行うように注意してください。