PythonとBeautifulSoupを使ってJSONをパースする

PythonとBeautifulSoupを使ってWebページから情報を取得し、それをJSON形式で出力する方法について説明します。

まず、必要なモジュールをインポートします。

from bs4 import BeautifulSoup
import requests
import json

次に、スクレイピング対象のURLを指定します。

url = "https://www.example.com"

このURLからHTMLを取得します。

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

ここで、BeautifulSoupオブジェクトが作成され、HTMLの解析が可能になります。次に、特定のHTML要素を抽出します。この例では、<script>タグ内のJSONデータを抽出します。

script = soup.find('script', type='application/ld+json')

最後に、このJSONデータをPythonの辞書に変換します。

data = json.loads(script.string)

これで、WebページからJSONデータを抽出し、それをPythonの辞書として利用することができます。この技術は、Webスクレイピングとデータ分析を組み合わせたアプリケーションを作成する際に非常に役立ちます.

見逃しています