Pythonのデータ分析ライブラリであるPandasを用いて、DataFrameから特定の日付範囲のデータを抽出する方法について解説します。
DataFrameから日付データの抽出
まずは、適切なライブラリをインポートします。
import pandas as pd
import numpy as np
次に、日付データを含むサンプルのDataFrameを作成します。
df = pd.DataFrame({
'来店者数': [120, 114, np.nan, 105, 128, 98],
'仕入れ数': [140, np.nan, 100, 130, 120, np.nan],
'日付': ['2019-05-01', '2019-05-02', '2019-05-03', '2019-05-04', '2019-05-05', '2019-05-06']
})
このDataFrameでは、’日付’カラムに日付情報が埋め込まれています。この日付データを用いて、特定の日付範囲のデータを抽出します。
df['日付'] = pd.to_datetime(df['日付']) # 日付カラムをdatetime型に変換
start_date = '2019-05-02'
end_date = '2019-05-05'
mask = (df['日付'] >= start_date) & (df['日付'] <= end_date)
df = df.loc[mask]
以上のコードにより、’2019-05-02’から’2019-05-05’までの日付範囲のデータをDataFrameから抽出することができます。
このように、PythonとPandasを用いることで、日付データを含むDataFrameから特定の日付範囲のデータを簡単に抽出することができます。これは、時系列データの分析において非常に有用な技術です。
参考文献
- pandasのDataFrameから期間を範囲指定して抽出する #Python – Qiita
- データフレームを日付で条件抽出 – よちよちpython.