PythonとBeautifulSoupを使用してHTMLタグを反復処理する方法について説明します。この記事では、HTMLページの特定のセクションにあるすべてのタグを反復処理する方法を学びます。
まず、BeautifulSoupとSeleniumライブラリをインポートします。
from selenium import webdriver
from bs4 import BeautifulSoup
次に、特定のHTMLページを取得します。
browser = webdriver.Firefox()
browser.get('http://urltoget.com')
そして、特定のHTML要素(この場合はテーブル)を見つけます。
table = browser.find_element_by_id('myBSTable')
bs_table = BeautifulSoup(table.get_attribute('innerHTML'), 'lxml')
これで、テーブルのすべての行を反復処理し、各行のすべてのtd
とth
タグを反復処理できます。
rows = bs_table.findAll('tr')
for tr in rows:
cells = tr.find_all(['td', 'th'])
for cell in cells:
print(cell.name, cell.attrs)
このコードは、各セルの名前と属性を出力します。
以上がPythonとBeautifulSoupを使用してHTMLタグを反復処理する基本的な方法です。この方法を使用すると、Webページから情報を抽出するWebスクレイピングタスクを簡単に実行できます。