PythonのライブラリであるBeautifulSoupは、HTMLやXMLの解析を容易に行うことができます。特にWebスクレイピングではよく使用されます。今回は、BeautifulSoupを使ってURLを解析する方法について説明します。
まず、BeautifulSoupとrequestsライブラリをインポートします。
from bs4 import BeautifulSoup
import requests
次に、解析したいURLを指定します。
url = "https://任意のURL"
このURLからHTMLを取得します。
res = requests.get(url)
取得したHTMLをBeautifulSoupで解析します。
soup = BeautifulSoup(res.text, "html.parser")
ここで、soup
オブジェクトが作成され、HTMLの解析が可能になります。次に、解析したいタグを指定します。今回はa
タグ(リンク)を指定します。
links = soup.find_all("a")
これで、すべてのa
タグが取得できます。次に、各a
タグからhref
属性(URL)を取得します。
for link in links:
url = link.get('href')
print(url)
以上で、指定したURLのページ内にあるすべてのリンクを取得することができます。このように、BeautifulSoupを使うと、HTMLの解析やWebスクレイピングを簡単に行うことができます。
この記事がPythonとBeautifulSoupを使ったURLの解析に役立つことを願っています。