\

PythonとSeleniumを使用してウェブページのHTMLを取得する方法について説明します。この記事は、PythonとSeleniumを使用したスクレイピングの初心者向けです。

Seleniumとは

Seleniumは、ウェブブラウザの操作を自動化するためのツールです。Pythonと組み合わせることで、ウェブサイトから情報を取得するスクレイピングを行うことができます。

HTMLの取得

Seleniumを使用してHTMLを取得する基本的なコードは以下の通りです。

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

def source_code_get(url):
    options = webdriver.ChromeOptions()
    options.add_argument("--headless")
    driver = webdriver.Chrome(ChromeDriverManager().install(), options=options)
    driver.implicitly_wait(60)
    driver.get(url)
    source_code = driver.page_source
    driver.quit()
    return source_code

if __name__ == '__main__':
    keyword = 'python'
    url = f'https://www.google.co.jp/search?q={keyword}'
    source_code = source_code_get(url)
    print(source_code)

このコードは、指定したURLのページソース全体を取得します。

注意点

  • webdriver-managerを使用すると、Chromedriverを自動で更新してくれます。
  • options.add_argument("--headless")を使用すると、ブラウザ画面が開かずに動作させることができます。
  • driver.implicitly_wait(60)は、指定したページソースが読み込まれるまで次の動作を待機します。

以上がPythonとSeleniumを使用してHTMLを取得する基本的な方法です。この情報が皆さんのスクレイピング活動に役立つことを願っています。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です