XPathは、XMLやHTML形式の文書から特定の部分を指定するときに使う構文です。PythonでWebスクレイピングを行う際には、XPathを使ってHTML要素を取得することがよくあります。
XPathにはnot
という関数があり、これを使うと特定の条件を満たさない要素を選択することができます。例えば、次のようなXPath式は、id属性が’xx’を含まないすべてのa
要素を選択します。
//a[not(contains(@id, 'xx'))]
このXPath式は、a
要素の中でid属性が’xx’を含まないものをすべて選択します。また、or
演算子を使って複数の条件を組み合わせることもできます。例えば、次のようなXPath式は、id属性が’XX’でない、またはclass属性が’YY’でないすべてのa
要素を選択します。
a[not(@id='XX')]|a[not(@class='YY')]
このように、XPathのnot
関数を使うと、特定の条件を満たさない要素を効率的に選択することができます。これは、Webスクレイピングで特定の要素を除外したいときなどに非常に便利です。
以上がPythonとXPathのnot
演算子の基本的な使い方になります。この知識を活かして、より効率的なWebスクレイピングを行いましょう。