Pythonのデータ分析ライブラリであるpandasには、欠損値(NaN)を扱うための便利なメソッドがあります。その一つがdropna
メソッドです。
dropnaメソッドの基本
dropna
メソッドは、DataFrameやSeriesから欠損値(NaN)を含む行や列を削除するためのメソッドです。
基本的な使用方法は以下の通りです。
df = df.dropna()
このコードを実行すると、df
の中でNaNを含む全ての行が削除されます。
dropnaメソッドのオプション
dropna
メソッドにはいくつかのオプションがあります。
axis
: 除外する軸を指定します。デフォルトは0(行方向)です。how
: ‘any’または’all’を指定します。’any’は少なくとも1つのNaNがある行または列を削除し、’all’は全ての要素がNaNの行または列を削除します。thresh
: NaN以外の要素の最小数を指定します。subset
: 除外対象とする列を指定します。
例えば、以下のコードはage
列にNaNが含まれる行を削除します。
df = df.dropna(subset=['age'])
以上がpandasのdropna
メソッドの基本的な使い方となります。データ分析を行う際には欠損値の扱いが重要となるため、ぜひこのメソッドを活用してみてください。