PythonとBeautifulSoupを使ってローカルHTMLファイルを読み込む方法

投稿者 admin 2024年7月21日

PythonのライブラリであるBeautifulSoupを使って、ローカルのHTMLファイルを読み込む方法を紹介します。この方法は、Webスクレイピングの初歩として非常に有用です。

環境の準備

まず、BeautifulSoupをインストールします。以下のコマンドを実行してください。

pip install beautifulsoup4

BeautifulSoupを使ってHTMLファイルを読み込む基本的なコードは以下の通りです。

from bs4 import BeautifulSoup

with open("example.html") as fp:
    soup = BeautifulSoup(fp, 'html.parser')

このコードでは、open関数を使ってHTMLファイルを開き、その内容をBeautifulSoupのコンストラクタに渡しています。'html.parser'は、HTMLを解析するためのパーサーを指定しています。

BeautifulSoupオブジェクトが作成されると、HTMLの解析を開始できます。例えば、すべてのaタグを取得するには以下のようにします。

links = soup.find_all('a')
for link in links:
    print(link.get('href'))

このコードは、HTML内のすべてのaタグを見つけ、各リンクのhref属性を出力します。

以上が、PythonとBeautifulSoupを使ってローカルのHTMLファイルを読み込む基本的な方法です。この知識を基に、さらに複雑なWebスクレイピングのタスクに挑戦してみてください。