\

Pythonを使用したPDFテキスト抽出と座標取得

投稿者 admin 2024年7月21日

Pythonは、PDFからテキストを抽出し、その座標を取得するための強力なツールです。この記事では、Pythonとpdfminerライブラリを使用して、PDFからテキストを抽出し、その座標を取得する方法を紹介します。

まず、pdfminerというライブラリをインストールします。これは、PDFの読み取りに使用します。

pip install pdfminer.six

次に、以下のサンプルコードを実行します。このコードは、PDFからテキストを抽出し、その座標を取得します。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.layout import LAParams, LTTextContainer
from pdfminer.converter import PDFPageAggregator

def main():
    manager = PDFResourceManager()
    with open('sample.pdf', 'rb') as input:
        with PDFPageAggregator(manager, laparams=LAParams()) as device:
            iprtr = PDFPageInterpreter(manager, device)
            for page in PDFPage.get_pages(input):
                iprtr.process_page(page)
                layouts = device.get_result()
                for layout in layouts:
                    if isinstance(layout, LTTextContainer):
                        print(f'{layout.get_text().strip()}, x0={layout.x0:.2f}, x1={layout.x1:.2f}, y0={layout.y0:.2f}, y1={layout.y1:.2f}, width={layout.width:.2f}, height={layout.height:.2f}')

if __name__ == '__main__':
    main()

このコードは、PDFからテキストを抽出し、その座標を取得します。テキストの座標は、テキストの左端、右端、下端、上端、幅、高さを示します。

以上で、Pythonを使用してPDFからテキストを抽出し、その座標を取得する方法を紹介しました。この方法を使用すれば、PDFから必要な情報を効率的に抽出することが可能になります。

投稿者 admin

コメントを残すコメントをキャンセル

Pandasでデータフレームの要約統計量を計算する方法

ラズベリーパイとPythonを使用した画像処理

Javaでのプロキシの設定方法

WindowsでPythonを動かす方法