PythonとChromeを使ったWebスクレイピングについて解説します。この記事では、PythonのライブラリであるSeleniumを使って、Chromeブラウザを操作し、Webページから情報を取得する方法を学びます。
PythonとSeleniumのインストール
まずはPythonにSeleniumというブラウザを操作するパッケージをインストールします。次のように、コマンドプロンプトからpy -m pip install selenium
というコマンドを打つことでインストールできます。
>py -m pip install selenium
Collecting selenium
Downloading selenium-3.141.0-py2.py3-none-any.whl (904 kB)
|████████████████████████████████| 904 kB 1.1 MB/s
Collecting urllib3
Downloading urllib3-1.25.11-py2.py3-none-any.whl (127 kB)
|████████████████████████████████| 127 kB 939 kB/s
Installing collected packages: urllib3, selenium
Successfully installed selenium-3.141.0 urllib3-1.25.11
WebDriverのダウンロード
次に、ブラウザの種類に応じたWebDriverが必要になります。ChromeDriverのダウンロードページを開き、現在使用しているChromeのバージョンに一致するものをダウンロードします。
ソースコードの記述
以下に、yahooのサイトを開いて検索を実行するコードを示します。
import time
from selenium import webdriver
driver = webdriver.Chrome() # WebDriverのインスタンスを作成
driver.get('https://www.yahoo.co.jp/') # URLを指定してブラウザを開く
time.sleep(2) # 2秒待機
search_box = driver.find_element_by_name('p') # name属性で検索ボックスを特定
search_box.send_keys('スクレイピング') # 検索ボックスにテキストを入力
search_box.submit() # 検索文言の送信(検索ボタンを押すのと同じ)
time.sleep(2) # 2秒待機
driver.quit() # ブラウザを閉じる
このコードを実行すると、ブラウザ(Chrome)が立ち上がり、yahooのサイトから「スクレイピング」の文言の検索を実行します。
以上がPythonとChromeを使ったWebスクレイピングの基本的な手順です。これを基に、さらに詳細なスクレイピングを行うことができます。.