PythonとSeleniumを使用してウェブページのHTMLを取得する方法について説明します。この記事は、PythonとSeleniumを使用したスクレイピングの初心者向けです。
Seleniumとは
Seleniumは、ウェブブラウザの操作を自動化するためのツールです。Pythonと組み合わせることで、ウェブサイトから情報を取得するスクレイピングを行うことができます。
HTMLの取得
Seleniumを使用してHTMLを取得する基本的なコードは以下の通りです。
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
def source_code_get(url):
options = webdriver.ChromeOptions()
options.add_argument("--headless")
driver = webdriver.Chrome(ChromeDriverManager().install(), options=options)
driver.implicitly_wait(60)
driver.get(url)
source_code = driver.page_source
driver.quit()
return source_code
if __name__ == '__main__':
keyword = 'python'
url = f'https://www.google.co.jp/search?q={keyword}'
source_code = source_code_get(url)
print(source_code)
このコードは、指定したURLのページソース全体を取得します。
注意点
webdriver-manager
を使用すると、Chromedriverを自動で更新してくれます。options.add_argument("--headless")
を使用すると、ブラウザ画面が開かずに動作させることができます。driver.implicitly_wait(60)
は、指定したページソースが読み込まれるまで次の動作を待機します。
以上がPythonとSeleniumを使用してHTMLを取得する基本的な方法です。この情報が皆さんのスクレイピング活動に役立つことを願っています。