PythonとBeautifulSoupを使ってURLを解析する

PythonのライブラリであるBeautifulSoupは、HTMLやXMLの解析を容易に行うことができます。特にWebスクレイピングではよく使用されます。今回は、BeautifulSoupを使ってURLを解析する方法について説明します。

まず、BeautifulSoupとrequestsライブラリをインポートします。

from bs4 import BeautifulSoup
import requests

次に、解析したいURLを指定します。

url = "https://任意のURL"

このURLからHTMLを取得します。

res = requests.get(url)

取得したHTMLをBeautifulSoupで解析します。

soup = BeautifulSoup(res.text, "html.parser")

ここで、soupオブジェクトが作成され、HTMLの解析が可能になります。次に、解析したいタグを指定します。今回はaタグ（リンク）を指定します。

links = soup.find_all("a")

これで、すべてのaタグが取得できます。次に、各aタグからhref属性（URL）を取得します。

for link in links:
    url = link.get('href')
    print(url)

以上で、指定したURLのページ内にあるすべてのリンクを取得することができます。このように、BeautifulSoupを使うと、HTMLの解析やWebスクレイピングを簡単に行うことができます。

この記事がPythonとBeautifulSoupを使ったURLの解析に役立つことを願っています。

見逃しています