PythonのPandasライブラリには、データフレームを結合するための便利な関数があります。その一つがjoin
関数です。
join
関数は、データフレームのインデックス(行名)をキーとして横方向に結合します。以下に具体的な使用例を示します。
import pandas as pd
# 2つのデータフレームを作成
df1 = pd.DataFrame({
"col_a": ["a", "aa", "A", "AA", "aA"],
"col_b": ["b", "bb", "B", "BB", "bB"],
"col_c": ["c", "cc", "C", "CC", "cC"]
}, index=["r1", "r2", "r3", "r4", "r5"])
df2 = pd.DataFrame({
"col_x": ["x", "xx", "X", "XX", "xX"],
"col_y": ["y", "yy", "Y", "YY", "yY"],
"col_z": ["z", "zz", "Z", "ZZ", "zZ"]
}, index=["r1", "r2", "r3", "r4", "r5"])
# df1とdf2を結合
df3 = df1.join(df2)
このコードでは、df1
とdf2
という2つのデータフレームを作成し、それらをjoin
関数を使って結合しています。結果として得られるdf3
は、df1
とdf2
の両方の列を持つ新しいデータフレームになります。
また、結合するデータフレームで共通の列名を持っている場合、結合の左側と右側の共通列にサフィックスを指定する必要があります。この場合、引数lsuffix
とrsuffix
をそれぞれ指定しないとエラーが出ます。
# 左右のサフィックスを指定する必要がある
df3 = df1.join(df2, lsuffix="_A", rsuffix="_B")
このように、PythonとPandasを使えば、データフレームの結合を簡単に行うことができます。これにより、データ分析や前処理を効率的に行うことが可能になります。.