Pythonのデータ分析ライブラリであるPandasでは、loc
を使ってDataFrameの特定の行や列を抽出することができます。特に、Null値の取り扱いについては、データ分析を行う上で重要なスキルとなります。
locとNull値
Pandasのloc
は、DataFrameの中で条件を満たした行や列を抽出することができます。例えば、以下のようにisnull()
を使ってNull値を持つ行を抽出することができます。
lf_null = houseprices_num.loc[houseprices_num['LotFrontage'].isnull(), ['LotFrontage']]
このコードは、LotFrontage
列がNullの行を抽出しています。
locの使い方
loc
は、以下のようなデータ指定が可能です。
- 単一ラベル
- ラベルリスト
- ラベルのスライスオブジェクト
- 真偽値リスト
- 条件式の指定
それぞれの使い方について詳しく見ていきましょう。
単一ラベル
抽出したい行のインデックスラベル(単一)を指定してデータを抽出します。
loc_sample_data.loc["itemC"]
ラベルリスト
複数行を指定/抽出することが可能です。複数指定する場合はリストで指定します。
loc_sample_data.loc[["itemA", "itemD"]]
条件式の指定
条件式を利用してデータを抽出することも可能です。例えば、以下のようにprice
が500より大きいデータを抽出することができます。
loc_sample_data.loc[loc_sample_data["price"] > 500]
以上、PythonとPandasのloc
を使ったNull値の取り扱いについて解説しました。データ分析を行う上で、Null値の取り扱いは避けて通れないテーマです。ぜひ、この記事を参考に、PythonとPandasを使ったデータ分析のスキルを磨いていきましょう。