PythonとXPathを用いて、HTML要素のクラスを検索する方法について解説します。XPathはXML形式の文書から特定の部分を指定して取得するための簡易言語で、HTMLにも使うことができます。
XPathの基本的な書き方
XPathにおいて、各要素はノードテストと呼ばれます。また各ノードテストを”/”(スラッシュ)で区切り、指定したい要素までの道のりを示したものをロケーションパスと言います。
contains関数の使い方
contains()
関数は、属性値またはテキストに含まれる文字列をあいまい検索することに使われます。
属性値に特定の文字列が含まれている要素を指定する
例えば、HTMLからclass属性に特定の文字列が含まれている要素をすべて取得したい場合、次のように書きます。
//span[contains(@class,"特定の文字列")]
このXPathは、classに特定の文字列を含むspan要素を取得するという意味になります。
テキストに特定の文字列が含まれる要素を指定する
例えば、HTMLから特定の文字を含んでいる要素を指定したい場合は、次のように書きます。
//span[contains(text(),"特定の文字列")]
以上がPythonとXPathを用いたクラス検索の基本的な方法です。これらの知識を活用して、効率的なWebスクレイピングを行いましょう。