PythonとXPathを使用して、HTMLページからhref
属性を取得する方法について説明します。この記事では、PythonのライブラリであるSeleniumとlxmlを使用します。
必要なライブラリ
まず、以下のライブラリが必要です:
- Selenium: ブラウザ操作を自動化するライブラリ
- lxml: XMLとHTMLを解析するライブラリ
ステップ1: SeleniumとWebDriverのインストール
SeleniumとWebDriverをインストールします. WebDriverは、操作するブラウザを選択します.
from selenium import webdriver
ステップ2: ブラウザの起動
次に、起動するブラウザを選択します.
browser = webdriver.Chrome()
ステップ3: hrefを取得したいサイトを開く
hrefを取得したいページのURLをgetで取得します.
browser.get('hrefを取得するページを開く')
ステップ4: aタグが存在する要素を指定する
hrefを取得するために、aタグの要素を指定します.
elem = find_element_by_class_name('practice')
ステップ5: 指定したaタグからhref属性の中身を取得する
aタグも含めた要素を取得したら、aタグ要素のみを抽出します. aタグを抽出したら、get_attribute (‘href’)でhref属性を取得します.
elem_href = elem.find_element_by_tag_name('a').get_attribute('href')
print(elem_href)
以上が、PythonとXPathを使用して、HTMLページからhref
属性を取得する方法です.