PythonのライブラリであるBeautifulSoupは、HTMLやXMLのパースを容易にするためのライブラリです。今回は、BeautifulSoupを使ってローカルのHTMLファイルを読み込む方法について解説します。
BeautifulSoupのインストール
まずはBeautifulSoupをインストールします。以下のコマンドを実行してください。
pip install beautifulsoup4
HTMLファイルの準備
次に、スクレイピング対象のHTMLファイルをローカルに準備します。以下はサンプルファイルの一部です。
<div>
<ul class="sample">
<li class="sample">
<a href="aaa">aaaaaa</a>
</li>
<li class="sample">
<a href="bbb">bbbbb</a>
</li>
</ul>
<div class="sample">
<a href="ccc">ccc</a>
</div>
<div class="sample">
<div class="sample">
<a href="ddd">ddddd</a>
</div>
</div>
</div>
スクレイピング作業
BeautifulSoupを使ってHTMLファイルからデータを抽出します。以下にPythonのスクリプトを示します。
import bs4
# スクレイピング対象のhtmlファイルからsoupを作成
soup = bs4.BeautifulSoup(open('sample.html'), 'html.parser')
links = soup.find_all('a') # 全てのaタグ要素を取得
for link in links: # aタグのテキストデータを出力
print(link.text)
このスクリプトは、指定したHTMLファイルを開き、すべてのa
タグを見つけて、それぞれのテキストを出力します。
以上がPythonとBeautifulSoupを使ってローカルのHTMLファイルを読み込む基本的な方法です。この知識を活用して、さまざまなWebスクレイピングタスクを効率的に行うことができます。