Pythonで複数のデータフレームを結合する方法

PythonのPandasライブラリを使用して、複数のデータフレームを結合する方法について説明します。この記事では、pd.concat関数を使用したデータフレームの結合方法を中心に解説します。

pd.concat関数の基本的な使用方法

pd.concat関数は、複数のデータフレームを結合するための関数です。基本的な使用方法は以下の通りです。

df_merged = pd.concat([df1, df2], ignore_index=True, sort=False)

このコードでは、df1とdf2という2つのデータフレームを結合しています。ignore_index=Trueは、結合後のデータフレームで新しいインデックスを生成することを意味します。sort=Falseは、結合時に列をソートしないことを意味します。

100以上のデータフレームを結合する場合、それぞれのデータフレームを手動でリストに追加するのは非効率的です。そのような場合、以下のように自動的にリストを生成することが推奨されます。

pdList = []  # データフレームを格納するリスト
pdList.extend(value for name, value in locals().items() if name.startswith('cluster_'))
new_df = pd.concat(pdList)

このコードでは、cluster_で始まる名前のすべてのデータフレームをpdListに追加しています。その後、pd.concat関数を使用して、リスト内のすべてのデータフレームを結合しています。

以上が、PythonのPandasライブラリを使用して複数のデータフレームを結合する基本的な方法です。この方法を利用することで、大量のデータフレームを効率的に処理することが可能になります。