\

PythonとXPathを使用して、HTMLページからhref属性を取得する方法について説明します。この記事では、PythonのライブラリであるSeleniumとlxmlを使用します。

必要なライブラリ

まず、以下のライブラリが必要です:

  • Selenium: ブラウザ操作を自動化するライブラリ
  • lxml: XMLとHTMLを解析するライブラリ

ステップ1: SeleniumとWebDriverのインストール

SeleniumとWebDriverをインストールします. WebDriverは、操作するブラウザを選択します.

from selenium import webdriver

ステップ2: ブラウザの起動

次に、起動するブラウザを選択します.

browser = webdriver.Chrome()

ステップ3: hrefを取得したいサイトを開く

hrefを取得したいページのURLをgetで取得します.

browser.get('hrefを取得するページを開く')

ステップ4: aタグが存在する要素を指定する

hrefを取得するために、aタグの要素を指定します.

elem = find_element_by_class_name('practice')

ステップ5: 指定したaタグからhref属性の中身を取得する

aタグも含めた要素を取得したら、aタグ要素のみを抽出します. aタグを抽出したら、get_attribute (‘href’)でhref属性を取得します.

elem_href = elem.find_element_by_tag_name('a').get_attribute('href')
print(elem_href)

以上が、PythonとXPathを使用して、HTMLページからhref属性を取得する方法です.

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です