PythonでPDFを操作するためには、いくつかのライブラリが利用可能です。その中でも特に注目すべきはpypdf
とPyMuPDF
です。
pypdf
pypdf
はPythonでPDFを扱うためのライブラリで、PDFの読み込み、書き込み、結合、分割などの操作が可能です。また、pypdf
はPyPDF2
の後継として開発が進められており、公式ではpypdf
の使用が推奨されています。
# ライブラリのインポート
from pypdf import PdfReader, PdfWriter
# PDFの読み込み
reader = PdfReader("1kankyosyo.pdf")
# 書き込み用のオブジェクトを作成
writer = PdfWriter()
# 0番目の要素(1ページ目のPDF)を抜き出す
pdf = reader.pages[0]
# 書き込み用オブジェクトに追加
writer.add_page(pdf)
# ファイルに書き出し
with open("kankyosyo_p1.pdf", "wb") as fp:
writer.write(fp)
PyMuPDF
PyMuPDF
は別のPythonのPDF操作ライブラリで、テキストの抽出や画像の取得などが可能です。特に日本語のテキストを抽出したい場合や、画像を抽出したい場合にはPyMuPDF
がおすすめです。
# ライブラリ設定
import fitz
# PDFを読み込む
filename = 'sample.pdf'
doc = fitz.open(filename)
# 1ページずつテキストを抽出して出力
for page in range(len(doc)):
text = doc[page].get_text()
print(text)
これらのライブラリを活用することで、PythonでPDFを効率的に操作することが可能になります。詳細な使用方法や機能については各ライブラリの公式ドキュメンテーションを参照してください。