BeautifulSoupはPythonのライブラリで、HTMLやXMLからデータを抽出するために使用されます。BeautifulSoupはあなたの好きなパーサーと一緒に動作し、パースツリーをナビゲート、検索、修正するための直感的な方法を提供します。これは通常、プログラマーが数時間または数日の作業を節約するのに役立ちます。
import requests
from bs4 import BeautifulSoup
# スクレイピング対象の URL にリクエストを送り HTML を取得する
res = requests.get('http://quotes.toscrape.com/')
# レスポンスの HTML から BeautifulSoup オブジェクトを作る
soup = BeautifulSoup(res.text, 'html.parser')
# title タグの文字列を取得する
title_text = soup.find('title').get_text()
print(title_text)
# ページに含まれるリンクを全て取得する
links = [url.get('href') for url in soup.find_all('a')]
print(links)
# class が quote の div 要素を全て取得する
quote_elms = soup.find_all('div', {'class': 'quote'})
print(len(quote_elms))
上記のコードは、BeautifulSoupを使用してウェブページからデータを抽出する基本的な例です。まず、requests.get
を使用してウェブページのHTMLを取得します。次に、そのHTMLをBeautifulSoupオブジェクトに変換します。このオブジェクトを使用して、ウェブページから特定のデータを抽出できます。
この記事では、BeautifulSoupの基本的な使い方と、実践で役立つTipsをいくつか紹介しました。これらの情報を活用して、PythonとBeautifulSoupを使用したウェブスクレイピングを行ってみてください。.