\

PythonのライブラリであるBeautifulSoupは、HTMLやXMLのパースを容易にするためのライブラリです。今回は、BeautifulSoupを使ってローカルのHTMLファイルを読み込む方法について解説します。

BeautifulSoupのインストール

まずはBeautifulSoupをインストールします。以下のコマンドを実行してください。

pip install beautifulsoup4

HTMLファイルの準備

次に、スクレイピング対象のHTMLファイルをローカルに準備します。以下はサンプルファイルの一部です。

<div>
  <ul class="sample">
    <li class="sample">
      <a href="aaa">aaaaaa</a>
    </li>
    <li class="sample">
      <a href="bbb">bbbbb</a>
    </li>
  </ul>
  <div class="sample">
    <a href="ccc">ccc</a>
  </div>
  <div class="sample">
    <div class="sample">
      <a href="ddd">ddddd</a>
    </div>
  </div>
</div>

スクレイピング作業

BeautifulSoupを使ってHTMLファイルからデータを抽出します。以下にPythonのスクリプトを示します。

import bs4

# スクレイピング対象のhtmlファイルからsoupを作成
soup = bs4.BeautifulSoup(open('sample.html'), 'html.parser')

links = soup.find_all('a')  # 全てのaタグ要素を取得

for link in links:  # aタグのテキストデータを出力
    print(link.text)

このスクリプトは、指定したHTMLファイルを開き、すべてのaタグを見つけて、それぞれのテキストを出力します。

以上がPythonとBeautifulSoupを使ってローカルのHTMLファイルを読み込む基本的な方法です。この知識を活用して、さまざまなWebスクレイピングタスクを効率的に行うことができます。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です