Pythonのデータ分析ライブラリであるPandasには、pivot_table
という強力な機能があります。これは、大量のデータから様々な項目で集計ができる機能で、列データと行データのクロス集計により、一目でデータ構造を把握できます。
import pandas as pd
# データフレームの作成
df = pd.DataFrame({
'日付': ['2020-01-01', '2020-01-01', '2020-01-02', '2020-01-02'],
'商品名': ['りんご', 'みかん', 'りんご', 'みかん'],
'販売数量': [100, 200, 150, 300],
})
# pivot_tableの作成
pivot_df = df.pivot_table(index='日付', columns='商品名', values='販売数量', aggfunc='sum')
print(pivot_df)
このコードは、日付と商品名による販売数量の合計を計算するピボットテーブルを作成します。
また、pivot_table
関数のaggfunc
引数を変更することで、平均、最小値、最大値など、異なる統計量でデータを集計することも可能です。
# 売上平均を計算するピボットテーブルの作成
pivot_df_mean = df.pivot_table(index='日付', columns='商品名', values='販売数量', aggfunc='mean')
print(pivot_df_mean)
このように、Pandasのpivot_table
関数を使うと、データの集計や分析が非常に簡単になります。ぜひ活用してみてください。.