PythonとBeautifulSoupを使ってWebページから情報を取得し、それをJSON形式で出力する方法について説明します。
まず、必要なモジュールをインポートします。
from bs4 import BeautifulSoup
import requests
import json
次に、スクレイピング対象のURLを指定します。
url = "https://www.example.com"
このURLからHTMLを取得します。
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
ここで、BeautifulSoup
オブジェクトが作成され、HTMLの解析が可能になります。次に、特定のHTML要素を抽出します。この例では、<script>
タグ内のJSONデータを抽出します。
script = soup.find('script', type='application/ld+json')
最後に、このJSONデータをPythonの辞書に変換します。
data = json.loads(script.string)
これで、WebページからJSONデータを抽出し、それをPythonの辞書として利用することができます。この技術は、Webスクレイピングとデータ分析を組み合わせたアプリケーションを作成する際に非常に役立ちます.