PythonのライブラリであるBeautifulSoupは、HTMLやXMLから特定のデータを抽出するために使用されます。今回は、BeautifulSoupを使用してWebページからリンクテキストを取得する方法について説明します。
BeautifulSoupとは
BeautifulSoupは、HTMLやXMLなどのソースから特定のデータを抽出するために使われるPythonのライブラリです。他にも同じような機能を持つライブラリはありますが、その中でも格段に使いやすいと感じています。
リンクテキストの取得方法
BeautifulSoupを使用してリンクテキストを取得する基本的なコードは以下の通りです。
from bs4 import BeautifulSoup
import requests as req
url = 'https://www.example.com'
html = req.get(url).content
soup = BeautifulSoup(html, 'html.parser')
links_with_text = [a['href'] for a in soup.find_all('a', href=True) if a.text]
このコードでは、まず指定したURLからHTMLを取得しています。次に、BeautifulSoupを使用してHTMLを解析し、すべてのa
タグ(リンク)を見つけます。最後に、テキストを持つすべてのリンクのhref
属性(リンク先のURL)をリストに追加します。
この方法を使用すれば、Webページからすぐにリンクテキストを取得することができます。
まとめ
PythonとBeautifulSoupを使用すれば、Webページから簡単にリンクテキストを取得することができます。Webスクレイピングの初心者でも、この記事を参考にしてみてください。