PythonのライブラリであるBeautifulSoupは、HTMLやXMLのパース、スクレイピングに非常に便利なツールです。この記事では、BeautifulSoupを使ってHTMLを操作する基本的な方法を紹介します。
BeautifulSoupのインストール
BeautifulSoupはpipを用いて簡単にインストールできます。
pip install beautifulsoup4
HTMLファイルの読み込み
BeautifulSoupを使ってHTMLファイルを読み込む基本的なコードは以下の通りです。
from bs4 import BeautifulSoup
with open('sample.html', 'r') as f:
contents = f.read()
soup = BeautifulSoup(contents, 'html.parser')
このコードでは、sample.html
というHTMLファイルを読み込み、BeautifulSoupオブジェクトを作成しています。
HTMLの解析
BeautifulSoupオブジェクトが作成されたら、HTMLの解析を行うことができます。例えば、すべての<a>
タグを取得するには以下のようにします。
links = soup.find_all('a')
for link in links:
print(link.text)
このコードは、HTML内のすべての<a>
タグを見つけ、そのテキストを表示します。
HTMLの出力
BeautifulSoupオブジェクトをHTMLとして出力するには、BeautifulSoupオブジェクトを文字列に変換してファイルに書き込みます。
with open("output.html", "w") as file:
file.write(str(soup))
このコードは、BeautifulSoupオブジェクトを文字列に変換し、それをoutput.html
という名前の新しいファイルに書き込みます。
以上が、PythonとBeautifulSoupを使ってHTMLを操作する基本的な方法です。これらの基本的な操作をマスターすることで、より複雑なWebスクレイピングタスクに挑戦することができます。