BeautifulSoup4(通常はbs4と略されます)は、Pythonで利用可能なHTMLやXMLのパーサライブラリです。このライブラリを使用すると、HTMLやXMLファイルからデータを抽出することが可能になります。
bs4のインストール
bs4はPythonのパッケージ管理システムであるpipを使用して簡単にインストールすることができます。
pip install beautifulsoup4
bs4の基本的な使い方
以下に、bs4を使用してHTMLからデータを抽出する基本的なコードを示します。
from bs4 import BeautifulSoup
# HTMLのサンプル
html = "<body><h1>python入門</h1><p>pythonの基礎について学習します</p></body>"
# BeautifulSoupオブジェクトの生成
soup = BeautifulSoup(html, "html.parser")
# h1タグのデータを抽出
print(soup.h1)
このコードを実行すると、<h1>python入門</h1>
が出力されます。
まとめ
bs4は、PythonでHTMLやXMLからデータを抽出するための強力なツールです。Webスクレイピングを行う際には、このライブラリが非常に役立ちます。さらに詳しい情報や使い方については、公式のドキュメンテーションを参照してください。