XPathは、XML形式の文書から特定の部分を指定して取得するための簡易言語です。HTMLにも使うことができます。XPathはスクレイピングにおいて、HTMLの中から特定の情報を指定し取得するのに利用されます。
XPathには、contains()
という関数があります。この関数は通常、属性値またはテキストに含まれる文字列をあいまい検索することに使われます。
例えば、HTMLからclass属性に”Red”がつくものをすべて取得したい場合、次のように書きます。
//span[contains(@class,"Red")]
このXPathは、classに”Red”を含むspan要素を取得するという意味になります。
また、テキストに特定の文字列が含まれる要素を指定する場合もあります。例えば、このHTMLから『Rowling』という文字を含んでいる要素を指定したい場合は、次のように書きます。
//span[contains(text(),"Rowling")]
これらの基本的な書き方を理解した上で、後から説明する属性の指定方法や階層の前後をたどって要素を指定する方法などの応用的なトピックに進んでいってください。
以上はXPathによく使われる関数です。もしXPathの構文・関数をより多く了解するには、この記事 をご覧ください。