Pythonは、PDFからテキストを抽出し、その座標を取得するための強力なツールです。この記事では、Pythonとpdfminer
ライブラリを使用して、PDFからテキストを抽出し、その座標を取得する方法を紹介します。
まず、pdfminer
というライブラリをインストールします。これは、PDFの読み取りに使用します。
pip install pdfminer.six
次に、以下のサンプルコードを実行します。このコードは、PDFからテキストを抽出し、その座標を取得します。
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.layout import LAParams, LTTextContainer
from pdfminer.converter import PDFPageAggregator
def main():
manager = PDFResourceManager()
with open('sample.pdf', 'rb') as input:
with PDFPageAggregator(manager, laparams=LAParams()) as device:
iprtr = PDFPageInterpreter(manager, device)
for page in PDFPage.get_pages(input):
iprtr.process_page(page)
layouts = device.get_result()
for layout in layouts:
if isinstance(layout, LTTextContainer):
print(f'{layout.get_text().strip()}, x0={layout.x0:.2f}, x1={layout.x1:.2f}, y0={layout.y0:.2f}, y1={layout.y1:.2f}, width={layout.width:.2f}, height={layout.height:.2f}')
if __name__ == '__main__':
main()
このコードは、PDFからテキストを抽出し、その座標を取得します。テキストの座標は、テキストの左端、右端、下端、上端、幅、高さを示します。
以上で、Pythonを使用してPDFからテキストを抽出し、その座標を取得する方法を紹介しました。この方法を使用すれば、PDFから必要な情報を効率的に抽出することが可能になります。