XPathはXML形式の文書から特定の部分を指定して取得するための簡易言語で、HTMLにも使うことができます。Pythonと組み合わせることで、Webスクレイピングにおいて、HTMLの中から特定の情報を指定し取得するのに利用されます。
XPathには、contains()
という関数があり、これは通常、属性値またはテキストに含まれる文字列をあいまい検索することに使われます。例えば、HTMLからclass属性に特定の文字列が含まれている要素をすべて取得したい場合、次のように書きます。
//span[contains(@class,"特定の文字列")]
このXPathは、classに”特定の文字列”を含むspan要素を取得するという意味になります。
また、XPathには他にも便利な関数があります。例えば、position()
関数を使うと、N番目の要素を指定することができます。そして、and
、not
、or
といった関数を使うと、複数の条件が同時に含まれている要素を指定することができます。
以上がPythonとXPathを用いて、属性を含む要素を取得する基本的な方法です。これらの知識を活用して、効率的なWebスクレイピングを行いましょう。