\

Pythonのデータ分析ライブラリであるpandasには、欠損値(NaN)を扱うための便利なメソッドがあります。その一つがdropnaメソッドです。

dropnaメソッドの基本

dropnaメソッドは、DataFrameやSeriesから欠損値(NaN)を含む行や列を削除するためのメソッドです。

基本的な使用方法は以下の通りです。

df = df.dropna()

このコードを実行すると、dfの中でNaNを含む全ての行が削除されます。

dropnaメソッドのオプション

dropnaメソッドにはいくつかのオプションがあります。

  • axis: 除外する軸を指定します。デフォルトは0(行方向)です。
  • how: ‘any’または’all’を指定します。’any’は少なくとも1つのNaNがある行または列を削除し、’all’は全ての要素がNaNの行または列を削除します。
  • thresh: NaN以外の要素の最小数を指定します。
  • subset: 除外対象とする列を指定します。

例えば、以下のコードはage列にNaNが含まれる行を削除します。

df = df.dropna(subset=['age'])

以上がpandasのdropnaメソッドの基本的な使い方となります。データ分析を行う際には欠損値の扱いが重要となるため、ぜひこのメソッドを活用してみてください。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です