PythonとPandasを使ってPDFのテーブルデータを取り扱う方法について説明します。この記事では、Pythonのライブラリであるtabula-py
を使用してPDFから表データを抽出し、それをPandasのDataFrameに変換する方法を紹介します。
PDFから表を抽出する
まずは、PDFから表を抽出するために必要なライブラリをインストールします。tabula-py
はPythonでPDFの表を抽出するためのライブラリで、以下のコマンドでインストールできます。
pip install tabula-py
次に、tabula-py
を使ってPDFから表を抽出します。以下のコードは、PDFファイルから表を抽出し、それをPandasのDataFrameに変換する例です。
import pandas as pd
import tabula
# PDFから表を抽出
dfs = tabula.read_pdf("sample.pdf", lattice=True, pages='all')
# 抽出した表を表示
for df in dfs:
display(df)
このコードでは、tabula.read_pdf
関数を使ってPDFから表を抽出しています。lattice=True
オプションは、表の罫線でセルを判定するためのもので、抽出したい表が罫線で区切られている場合に指定します。
DataFrameをCSVやExcelに書き出す
抽出した表データをCSVやExcelに書き出すことも可能です。以下のコードは、DataFrameをCSVとExcelに書き出す例です。
# DataFrameをCSVに書き出す
df.to_csv("table.csv", index=None)
# DataFrameをExcelに書き出す
df.to_excel("table.xlsx", index=None)
以上が、PythonとPandasを使ってPDFのテーブルデータを取り扱う基本的な手順です。これらの手順を組み合わせることで、PDFのテーブルデータを効率的に分析することが可能になります。
まとめ
PythonとPandasを使ってPDFのテーブルデータを取り扱う方法について説明しました。tabula-py
を使えば、PDFから表データを簡単に抽出でき、そのデータをPandasのDataFrameに変換して分析することができます。これにより、PDFのテーブルデータを効率的に分析することが可能になります。.