Pythonのデータ分析ライブラリであるPandasには、データを連結するための便利なメソッドがあります。その一つがconcat
メソッドです。このメソッドを使用すると、複数のデータフレームを縦または横に連結することができます。
import pandas as pd
# データフレームの作成
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
'B': ['B0', 'B1', 'B2'],
'C': ['C0', 'C1', 'C2']},
index=[0, 1, 2])
df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
'B': ['B3', 'B4', 'B5'],
'D': ['D3', 'D4', 'D5']},
index=[3, 4, 5])
# 縦方向に連結
result = pd.concat([df1, df2])
print(result)
上記のコードは、df1
とdf2
という2つのデータフレームを縦方向(行方向)に連結します。concat
メソッドの第一引数には連結したいデータフレームをリストとして渡します。また、axis
パラメータを指定することで連結の方向を制御できます。デフォルトは0
で、これは縦方向の連結を意味します。1
を指定すると、横方向(列方向)に連結します。
連結するデータフレームの列名が一致していない場合、Pandasは欠損値NaN
で埋めます。これは、concat
メソッドが列名を基準にデータを連結するためです。列名が一致していない場合でも連結を行いたい場合は、join
パラメータを使用して連結方法を指定できます。join='outer'
を指定すると、全ての列を残します(デフォルト)。一方、join='inner'
を指定すると、共通する列のみを残します。
以上がPythonとPandasを使用したデータ連結の基本的な方法です。データ分析を行う際には、複数のデータセットを一つにまとめることがよくあります。そのような場合には、concat
メソッドを活用してみてください。.