\

PythonとBeautifulSoupを使ったWebスクレイピング入門

投稿者 admin 2024年7月21日

PythonとBeautifulSoupを使ってWebスクレイピングを行う方法について説明します。Webスクレイピングは、Webサイトから情報を取得する技術です。

まず、必要なライブラリをインストールします。Pythonのrequestsライブラリを使ってHTTPでデータの通信を行い、beautifulsoup4はHTMLからデータを取り出すためのライブラリです。

$ pip install beautifulsoup4
$ pip install requests

次に、Webページの情報を取得します。今回は、Sportsnaviから情報を取得します。

import requests
from bs4 import BeautifulSoup

# URL指定
url = "https://baseball.yahoo.co.jp/npb/stats/batter?series=1&type=1"

# Responseオブジェクト生成
response = requests.get(url)

# 文字化け防止
response.encoding = response.apparent_encoding

# BeautifulSoupオブジェクト生成
soup = BeautifulSoup(response.text, "html.parser")

このようにしてWebページから情報を取得できます。次に、取得したHTMLから必要な情報を抽出します。

# タグを取得
elems = soup.find_all("div", id='main')

# 順にファイルへ書き込み
for i in elems:
    print(i.text)

以上がPythonとBeautifulSoupを使ったWebスクレイピングの基本的な流れです。これを応用して、様々なWebサイトから情報を取得することが可能です。

投稿者 admin

コメントを残すコメントをキャンセル

Pandasでデータフレームの要約統計量を計算する方法

ラズベリーパイとPythonを使用した画像処理

Javaでのプロキシの設定方法

WindowsでPythonを動かす方法