PythonでWebスクレイピングを行うためには、BeautifulSoup
とlxml
というライブラリがよく使われます。これらのライブラリをインストールする方法を以下に示します。
まず、Pythonのパッケージ管理ツールであるpip
を使って、BeautifulSoup
とlxml
をインストールします。
pip install beautifulsoup4
pip install lxml
これで、BeautifulSoup
とlxml
がインストールされます。インストールが成功したかどうかは、以下のコマンドを実行して確認できます。
pip freeze | grep -e request -e lxml -e beautiful
次に、BeautifulSoup
とlxml
を使ってWebスクレイピングを行う基本的なコードを示します。
import requests
from bs4 import BeautifulSoup
target_url = '***' # スクレイピング対象のURL
r = requests.get(target_url)
soup = BeautifulSoup(r.text, 'lxml')
for a in soup.find_all('a'):
print(a.get('href'))
このコードは、指定したURLのWebページを取得し、その中の全てのa
タグ(ハイパーリンク)を抽出し、リンク先のURLを表示します。
以上が、PythonとBeautifulSoupとlxmlパーサのインストールと基本的な使用方法についての説明です。これらのツールを使って、Webスクレイピングを行うことができます。詳細な使用方法や応用例については、公式ドキュメントや各種チュートリアルを参照してください。