\

PythonのライブラリであるBeautifulSoupは、HTMLやXMLのパース、スクレイピングに非常に便利なツールです。この記事では、BeautifulSoupを使ってHTMLを操作する基本的な方法を紹介します。

BeautifulSoupのインストール

BeautifulSoupはpipを用いて簡単にインストールできます。

pip install beautifulsoup4

HTMLファイルの読み込み

BeautifulSoupを使ってHTMLファイルを読み込む基本的なコードは以下の通りです。

from bs4 import BeautifulSoup

with open('sample.html', 'r') as f:
    contents = f.read()

soup = BeautifulSoup(contents, 'html.parser')

このコードでは、sample.htmlというHTMLファイルを読み込み、BeautifulSoupオブジェクトを作成しています。

HTMLの解析

BeautifulSoupオブジェクトが作成されたら、HTMLの解析を行うことができます。例えば、すべての<a>タグを取得するには以下のようにします。

links = soup.find_all('a')
for link in links:
    print(link.text)

このコードは、HTML内のすべての<a>タグを見つけ、そのテキストを表示します。

HTMLの出力

BeautifulSoupオブジェクトをHTMLとして出力するには、BeautifulSoupオブジェクトを文字列に変換してファイルに書き込みます。

with open("output.html", "w") as file:
    file.write(str(soup))

このコードは、BeautifulSoupオブジェクトを文字列に変換し、それをoutput.htmlという名前の新しいファイルに書き込みます。

以上が、PythonとBeautifulSoupを使ってHTMLを操作する基本的な方法です。これらの基本的な操作をマスターすることで、より複雑なWebスクレイピングタスクに挑戦することができます。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です