XPathは、XML文書から特定の部分を指定して取得するための言語で、HTMLにも使用できます。Pythonと組み合わせることで、Webスクレイピングにおいて特定の情報を効率的に取得することが可能になります。
contains()関数
XPathにはcontains()
という関数があり、これは特定の文字列が含まれる要素を指定するために使用されます。contains()
関数は通常、属性値またはテキストに含まれる文字列をあいまい検索するために使用されます。
属性値に特定の文字列が含まれる要素を指定する
contains(@class,"XXX")
の形式で使用します。例えば、HTMLからclass属性に”Red”がつく要素をすべて取得したい場合、次のように書きます。
//span[contains(@class,"Red")]
テキストに特定の文字列が含まれる要素を指定する
contains(text(),"XXX")
の形式で使用します。例えば、HTMLから”Rowling”という文字を含んでいる要素を指定したい場合、次のように書きます。
//span[contains(text(),"Rowling")]
まとめ
PythonとXPathを組み合わせることで、Webスクレイピングをより効率的に行うことができます。特に、contains()
関数を使用することで、特定の文字列を含む要素を簡単に指定することができます。これにより、Webページから必要な情報を正確に抽出することが可能になります。
以上、PythonとXPathを使用したWebスクレイピングについての基本的なガイドでした。この知識を活用して、効率的なデータ収集を行ってください。