BeautifulSoupとは
BeautifulSoupは、ウェブページから情報を抽出するためのPythonライブラリです。HTMLやXMLパーサの上に位置し、パースツリーを反復処理、検索、修正するためのPython風のイディオムを提供します。
BeautifulSoupのインストール
BeautifulSoupはPyPIで配布されているため、pipを使用してインストールすることができます。
pip install beautifulsoup4
BeautifulSoupの基本的な使い方
BeautifulSoupを使用すると、HTMLファイルやXMLファイルからデータを抽出することができます。以下に基本的な使い方を示します。
from bs4 import BeautifulSoup
# HTML文字列を用意
html = "<body><h1>python入門</h1><p>pythonの基礎について学習します</p></body>"
# BeautifulSoupオブジェクトを生成
soup = BeautifulSoup(html, "html.parser")
# h1タグのデータを抽出
print(soup.h1)
このコードは、HTML文字列からh1タグのデータを抽出します。
まとめ
BeautifulSoupは、ウェブスクレイピングに非常に便利なツールです。Pythonでウェブスクレイピングを行う際には、ぜひBeautifulSoupを使用してみてください。.