\

PythonでPDFを操作するためには、いくつかのライブラリが利用可能です。その中でも特に注目すべきはpypdfPyMuPDFです。

pypdf

pypdfはPythonでPDFを扱うためのライブラリで、PDFの読み込み、書き込み、結合、分割などの操作が可能です。また、pypdfPyPDF2の後継として開発が進められており、公式ではpypdfの使用が推奨されています。

# ライブラリのインポート
from pypdf import PdfReader, PdfWriter

# PDFの読み込み
reader = PdfReader("1kankyosyo.pdf")

# 書き込み用のオブジェクトを作成
writer = PdfWriter()

# 0番目の要素(1ページ目のPDF)を抜き出す
pdf = reader.pages[0]

# 書き込み用オブジェクトに追加
writer.add_page(pdf)

# ファイルに書き出し
with open("kankyosyo_p1.pdf", "wb") as fp:
    writer.write(fp)

PyMuPDF

PyMuPDFは別のPythonのPDF操作ライブラリで、テキストの抽出や画像の取得などが可能です。特に日本語のテキストを抽出したい場合や、画像を抽出したい場合にはPyMuPDFがおすすめです。

# ライブラリ設定
import fitz

# PDFを読み込む
filename = 'sample.pdf'
doc = fitz.open(filename)

# 1ページずつテキストを抽出して出力
for page in range(len(doc)):
    text = doc[page].get_text()
    print(text)

これらのライブラリを活用することで、PythonでPDFを効率的に操作することが可能になります。詳細な使用方法や機能については各ライブラリの公式ドキュメンテーションを参照してください。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です