\

PythonのライブラリであるBeautifulSoupは、HTMLやXMLから特定のデータを抽出するために使用されます。今回は、BeautifulSoupを使用してWebページからリンクテキストを取得する方法について説明します。

BeautifulSoupとは

BeautifulSoupは、HTMLやXMLなどのソースから特定のデータを抽出するために使われるPythonのライブラリです。他にも同じような機能を持つライブラリはありますが、その中でも格段に使いやすいと感じています。

リンクテキストの取得方法

BeautifulSoupを使用してリンクテキストを取得する基本的なコードは以下の通りです。

from bs4 import BeautifulSoup
import requests as req

url = 'https://www.example.com'
html = req.get(url).content
soup = BeautifulSoup(html, 'html.parser')
links_with_text = [a['href'] for a in soup.find_all('a', href=True) if a.text]

このコードでは、まず指定したURLからHTMLを取得しています。次に、BeautifulSoupを使用してHTMLを解析し、すべてのaタグ(リンク)を見つけます。最後に、テキストを持つすべてのリンクのhref属性(リンク先のURL)をリストに追加します。

この方法を使用すれば、Webページからすぐにリンクテキストを取得することができます。

まとめ

PythonとBeautifulSoupを使用すれば、Webページから簡単にリンクテキストを取得することができます。Webスクレイピングの初心者でも、この記事を参考にしてみてください。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です