PythonのライブラリであるBeautifulSoupを使って、ローカルのHTMLファイルを読み込む方法を紹介します。この方法は、Webスクレイピングの初歩として非常に有用です。
環境の準備
まず、BeautifulSoupをインストールします。以下のコマンドを実行してください。
pip install beautifulsoup4
HTMLファイルの読み込み
BeautifulSoupを使ってHTMLファイルを読み込む基本的なコードは以下の通りです。
from bs4 import BeautifulSoup
with open("example.html") as fp:
soup = BeautifulSoup(fp, 'html.parser')
このコードでは、open
関数を使ってHTMLファイルを開き、その内容をBeautifulSoupのコンストラクタに渡しています。'html.parser'
は、HTMLを解析するためのパーサーを指定しています。
HTMLの解析
BeautifulSoupオブジェクトが作成されると、HTMLの解析を開始できます。例えば、すべてのa
タグを取得するには以下のようにします。
links = soup.find_all('a')
for link in links:
print(link.get('href'))
このコードは、HTML内のすべてのa
タグを見つけ、各リンクのhref
属性を出力します。
以上が、PythonとBeautifulSoupを使ってローカルのHTMLファイルを読み込む基本的な方法です。この知識を基に、さらに複雑なWebスクレイピングのタスクに挑戦してみてください。