BeautifulSoup4は、PythonでWebスクレイピングを行うためのライブラリです。HTMLやXMLなどのマークアップ言語からデータを抽出することができます。BeautifulSoup4は直感的なAPIを持っており、初心者にも扱いやすいです。
BeautifulSoup4の最新バージョン
BeautifulSoup4の最新バージョンは4.12.3で、2024年1月17日にリリースされました。BeautifulSoup4はPython 2.7.xおよびPython 3.xで動作します。しかし、Beautiful SoupのサポートはPython 2は2020年12月31日に終了しました。その後の新しいBeautiful Soupの開発はPython 3を対象としています。
BeautifulSoup4の基本的な使い方
BeautifulSoup4を使用すると、ウェブページから情報を効率的に抽出することができます。以下に基本的な使い方を示します。
from bs4 import BeautifulSoup
# HTMLの解析
soup = BeautifulSoup("<p>Some<b>bad<i>HTML")
print(soup.prettify())
# <html>
# <body>
# <p>
# Some
# <b>
# bad
# <i>
# HTML
# </i>
# </b>
# </p>
# </body>
# </html>
# テキストの検索
print(soup.find(text="bad")) # 'bad'
# タグの検索
print(soup.i) # <i>HTML</i>
このように、BeautifulSoup4はPythonでWebスクレイピングを行う際に非常に便利なツールです。さらに詳しい情報や使用例については、公式のドキュメンテーションや各種チュートリアルをご覧ください。