\

PythonとXPath: 属性が特定の文字列を含む要素の選択

投稿者 admin 2024年7月21日

XPathは、XML形式の文書から特定の部分を指定して取得するための簡易言語です。HTMLにも使うことができます。XPathはスクレイピングにおいて、HTMLの中から特定の情報を指定し取得するのに利用されます。

XPathには、contains()という関数があります。この関数は通常、属性値またはテキストに含まれる文字列をあいまい検索することに使われます。

例えば、HTMLからclass属性に”Red”がつくものをすべて取得したい場合、次のように書きます。

//span[contains(@class,"Red")]

このXPathは、classに”Red”を含むspan要素を取得するという意味になります。

また、テキストに特定の文字列が含まれる要素を指定する場合もあります。例えば、このHTMLから『Rowling』という文字を含んでいる要素を指定したい場合は、次のように書きます。

//span[contains(text(),"Rowling")]

これらの基本的な書き方を理解した上で、後から説明する属性の指定方法や階層の前後をたどって要素を指定する方法などの応用的なトピックに進んでいってください。

以上はXPathによく使われる関数です。もしXPathの構文・関数をより多く了解するには、この記事をご覧ください。

投稿者 admin

コメントを残すコメントをキャンセル

Pandasでデータフレームの要約統計量を計算する方法

ラズベリーパイとPythonを使用した画像処理

Javaでのプロキシの設定方法

WindowsでPythonを動かす方法