PythonのPandasライブラリを使用して、複数のデータフレームを結合する方法について説明します。この記事では、pd.concat
関数を使用したデータフレームの結合方法を中心に解説します。
pd.concat関数の基本的な使用方法
pd.concat
関数は、複数のデータフレームを結合するための関数です。基本的な使用方法は以下の通りです。
df_merged = pd.concat([df1, df2], ignore_index=True, sort=False)
このコードでは、df1
とdf2
という2つのデータフレームを結合しています。ignore_index=True
は、結合後のデータフレームで新しいインデックスを生成することを意味します。sort=False
は、結合時に列をソートしないことを意味します。
複数のデータフレームを結合する
100以上のデータフレームを結合する場合、それぞれのデータフレームを手動でリストに追加するのは非効率的です。そのような場合、以下のように自動的にリストを生成することが推奨されます。
pdList = [] # データフレームを格納するリスト
pdList.extend(value for name, value in locals().items() if name.startswith('cluster_'))
new_df = pd.concat(pdList)
このコードでは、cluster_
で始まる名前のすべてのデータフレームをpdList
に追加しています。その後、pd.concat
関数を使用して、リスト内のすべてのデータフレームを結合しています。
以上が、PythonのPandasライブラリを使用して複数のデータフレームを結合する基本的な方法です。この方法を利用することで、大量のデータフレームを効率的に処理することが可能になります。