Pythonを使ってWeb上のHTMLを取得する方法

PythonでWeb上のHTMLを取得する方法について解説します。この記事では、PythonのrequestsとBeautifulSoupというライブラリの組み合わせを使用します。

ライブラリのインストール

まずは利用する前にライブラリのインストールを行っておきましょう。パソコンがMacならターミナル、Windowsならコマンドプロンプトから以下のコマンドでインストールします。

pip install requests
pip install beautifulsoup4

Web上のHTMLを取得するのがrequestsです。Pythonには標準でurllibというライブラリが存在しますが、requestsはそれよりもシンプルに、人が見て分かりやすくプログラムを記述できます。

import requests

# WebサイトのURLを指定
url = "https://www.example.com"

# Requestsを利用してWebページを取得する
r = requests.get(url)

# 取得したHTMLを表示
print(r.text)

取得したHTMLを解析するのがBeautifulSoupです。HTMLを解析するソフトウェアをパーサーと呼びます。

from bs4 import BeautifulSoup

# BeautifulSoupを利用してWebページを解析する
soup = BeautifulSoup(r.text, 'html.parser')

# 解析結果を表示
print(soup.prettify())

以上がPythonを使ってWeb上のHTMLを取得する基本的な方法です。これをベースに、さらに詳細なスクレイピングを行うことが可能です。.