Pythonは多機能なプログラミング言語で、PDFのテキスト抽出などのタスクを簡単に実行できます。特に、PyMuPDFというライブラリを使用すると、PDFからテキストを効率的に抽出できます。
PyMuPDFのインストール
まずはPyMuPDFをインストールします。以下のコマンドを実行します。
python -m pip install pymupdf
PDFからテキストを抽出する
次に、PDFからテキストを抽出するための基本的なコードを示します。
import fitz # PyMuPDF
# PDFファイルを開く
filename = 'sample.pdf'
doc = fitz.open(filename)
# テキストを抽出する
txt_list = []
for page in range(len(doc)):
text = doc[page].get_text()
text = text.replace('\\n', '')
txt_list.append([page+1, text])
このコードは、指定したPDFファイルを開き、各ページからテキストを抽出し、そのテキストをリストに格納します。
テキストの出力
最後に、抽出したテキストを出力します。以下のコードは、抽出したテキストをテキストファイルに出力する例です。
# テキストファイルに出力する
txtfile = "output.txt"
with open(txtfile, "w", encoding="utf-8") as f:
for item in txt_list:
f.write(f"Page {item[0]}:\n{item[1]}\n\n")
このコードは、抽出したテキストをページごとにテキストファイルに書き込みます。
以上が、PythonとPyMuPDFを使用してPDFからテキストを抽出する基本的な手順です。これらのコードを適切に組み合わせて使用することで、PDFのテキスト抽出タスクを効率的に実行できます。