PythonのPandasライブラリは、データ分析作業を効率的に行うための強力なツールです。特に、データフレーム内の欠損値(NaN)の取り扱いは、データ分析の質を大きく左右します。
欠損値の確認
まず、データフレーム内の欠損値を確認する方法を見てみましょう。以下のコードを使用して、各カラムの欠損値の数を表示できます。
import pandas as pd
# dfはあなたのデータフレーム
print(df.isnull().sum())
欠損値の補完
次に、欠損値の補完方法について見ていきましょう。Pandasのfillna()
メソッドを使用すると、欠損値を指定した値で補完することができます。
既定値で埋める
欠損値を特定の値(例えば0)で補完するには、以下のようにfillna()
メソッドを使用します。
# dfはあなたのデータフレーム
df.fillna(0)
直前または直後の値で補間する
欠損値を直前または直後の値で補完するには、fillna()
メソッドのmethod
引数を使用します。
# 直前の値で補間
df.fillna(method='ffill')
# 直後の値で補間
df.fillna(method='bfill')
前後の値から欠損値を推測する
欠損値を前後の値から推測して補完するには、interpolate()
メソッドを使用します。
df.interpolate()
以上がPythonとPandasを使用したデータフレームの欠損値補完の基本的な方法です。これらの方法を適切に使用することで、データ分析の精度を向上させることができます。.