PythonとBeautifulSoupを使ってHTMLを操作する

PythonのライブラリであるBeautifulSoupは、HTMLやXMLのパース、スクレイピングに非常に便利なツールです。この記事では、BeautifulSoupを使ってHTMLを操作する基本的な方法を紹介します。

BeautifulSoupのインストール

BeautifulSoupはpipを用いて簡単にインストールできます。

pip install beautifulsoup4

BeautifulSoupを使ってHTMLファイルを読み込む基本的なコードは以下の通りです。

from bs4 import BeautifulSoup

with open('sample.html', 'r') as f:
    contents = f.read()

soup = BeautifulSoup(contents, 'html.parser')

このコードでは、sample.htmlというHTMLファイルを読み込み、BeautifulSoupオブジェクトを作成しています。

BeautifulSoupオブジェクトが作成されたら、HTMLの解析を行うことができます。例えば、すべての<a>タグを取得するには以下のようにします。

links = soup.find_all('a')
for link in links:
    print(link.text)

このコードは、HTML内のすべての<a>タグを見つけ、そのテキストを表示します。

BeautifulSoupオブジェクトをHTMLとして出力するには、BeautifulSoupオブジェクトを文字列に変換してファイルに書き込みます。

with open("output.html", "w") as file:
    file.write(str(soup))

このコードは、BeautifulSoupオブジェクトを文字列に変換し、それをoutput.htmlという名前の新しいファイルに書き込みます。

以上が、PythonとBeautifulSoupを使ってHTMLを操作する基本的な方法です。これらの基本的な操作をマスターすることで、より複雑なWebスクレイピングタスクに挑戦することができます。