PythonでWeb上のHTMLを取得する方法について解説します。この記事では、Pythonのrequests
とBeautifulSoup
というライブラリの組み合わせを使用します。
ライブラリのインストール
まずは利用する前にライブラリのインストールを行っておきましょう。パソコンがMacならターミナル、Windowsならコマンドプロンプトから以下のコマンドでインストールします。
pip install requests
pip install beautifulsoup4
HTMLの取得
Web上のHTMLを取得するのがrequests
です。Pythonには標準でurllib
というライブラリが存在しますが、requests
はそれよりもシンプルに、人が見て分かりやすくプログラムを記述できます。
import requests
# WebサイトのURLを指定
url = "https://www.example.com"
# Requestsを利用してWebページを取得する
r = requests.get(url)
# 取得したHTMLを表示
print(r.text)
HTMLの解析
取得したHTMLを解析するのがBeautifulSoup
です。HTMLを解析するソフトウェアをパーサーと呼びます。
from bs4 import BeautifulSoup
# BeautifulSoupを利用してWebページを解析する
soup = BeautifulSoup(r.text, 'html.parser')
# 解析結果を表示
print(soup.prettify())
以上がPythonを使ってWeb上のHTMLを取得する基本的な方法です。これをベースに、さらに詳細なスクレイピングを行うことが可能です。.