PythonとBeautifulSoupを使ってWebスクレイピングを行う方法について説明します。Webスクレイピングは、Webサイトから情報を取得する技術です。
まず、必要なライブラリをインストールします。Pythonのrequests
ライブラリを使ってHTTPでデータの通信を行い、beautifulsoup4
はHTMLからデータを取り出すためのライブラリです。
$ pip install beautifulsoup4
$ pip install requests
次に、Webページの情報を取得します。今回は、Sportsnaviから情報を取得します。
import requests
from bs4 import BeautifulSoup
# URL指定
url = "https://baseball.yahoo.co.jp/npb/stats/batter?series=1&type=1"
# Responseオブジェクト生成
response = requests.get(url)
# 文字化け防止
response.encoding = response.apparent_encoding
# BeautifulSoupオブジェクト生成
soup = BeautifulSoup(response.text, "html.parser")
このようにしてWebページから情報を取得できます。次に、取得したHTMLから必要な情報を抽出します。
# タグを取得
elems = soup.find_all("div", id='main')
# 順にファイルへ書き込み
for i in elems:
print(i.text)
以上がPythonとBeautifulSoupを使ったWebスクレイピングの基本的な流れです。これを応用して、様々なWebサイトから情報を取得することが可能です。