PythonとXPathを使用してXML要素を取得する方法

PythonでXML文書内の要素を取得するためにXPathを使用する方法について解説します。XPathを使用すると、要素のタグ名、属性値、階層構造、位置、テキスト、属性値を指定して簡単に要素を取得することができます。

XPathとは

XPath(XML Path Language)は、XML文書内の要素や属性を指定して取得するための言語です。XPathは、XML文書の階層構造を利用して、特定の要素や属性を簡単に見つけることができます。

Pythonのライブラリであるlxmlを使用することで、XPathを使ってXML文書内の要素を簡単に取得することができます。

from lxml import etree 

# XML文書のパース
tree = etree.parse('books.xml') 

# タグ名がbookの要素を取得
elements = tree.xpath('//book')

上記のコードは、タグ名が’book’の要素をすべて取得します。

要素の属性値を指定して、その属性値に一致する要素を取得することもできます。

from lxml import etree 

# XML文書のパース
tree = etree.parse('books.xml') 

# 属性値がid="001"の要素を取得
elements = tree.xpath('//book[@id="001"]')

上記のコードは、id属性の値が’001’である要素をすべて取得します。

これらの方法を使うことで、XPathを使ってXML文書内の要素を簡単に取得することができます。是非、実際に試してみてください。