PythonとPyMuPDFを使用したPDFテキスト抽出

Pythonは多機能なプログラミング言語で、PDFのテキスト抽出などのタスクを簡単に実行できます。特に、PyMuPDFというライブラリを使用すると、PDFからテキストを効率的に抽出できます。

PyMuPDFのインストール

まずはPyMuPDFをインストールします。以下のコマンドを実行します。

python -m pip install pymupdf

PDFからテキストを抽出する

次に、PDFからテキストを抽出するための基本的なコードを示します。

import fitz  # PyMuPDF

# PDFファイルを開く
filename = 'sample.pdf'
doc = fitz.open(filename)

# テキストを抽出する
txt_list = []
for page in range(len(doc)):
    text = doc[page].get_text()
    text = text.replace('\\n', '')
    txt_list.append([page+1, text])

このコードは、指定したPDFファイルを開き、各ページからテキストを抽出し、そのテキストをリストに格納します。

テキストの出力

最後に、抽出したテキストを出力します。以下のコードは、抽出したテキストをテキストファイルに出力する例です。

# テキストファイルに出力する
txtfile = "output.txt"
with open(txtfile, "w", encoding="utf-8") as f:
    for item in txt_list:
        f.write(f"Page {item[0]}:\n{item[1]}\n\n")

このコードは、抽出したテキストをページごとにテキストファイルに書き込みます。

以上が、PythonとPyMuPDFを使用してPDFからテキストを抽出する基本的な手順です。これらのコードを適切に組み合わせて使用することで、PDFのテキスト抽出タスクを効率的に実行できます。

PythonとPyMuPDFを使用したPDFテキスト抽出

PyMuPDFのインストール

PDFからテキストを抽出する

テキストの出力

投稿者 admin

コメントを残すコメントをキャンセル

見逃しています

Pandasでデータフレームの要約統計量を計算する方法

ラズベリーパイとPythonを使用した画像処理

Javaでのプロキシの設定方法

WindowsでPythonを動かす方法

PyMuPDFのインストール

PDFからテキストを抽出する

テキストの出力

投稿者 admin

関連投稿

コメントを残す コメントをキャンセル

見逃しています

コメントを残すコメントをキャンセル