Pythonのデータ分析ライブラリであるPandasには、データフレームから特定の行や列を効率的に抽出するためのloc
関数があります。この記事では、その使い方について詳しく解説します。
loc関数の基本
Pandasのloc
関数は、データフレームから特定の行や列を抽出するための関数です。loc
関数を使用すると、行や列のラベルを指定して値を取得することができます。
# 行のインデックスが「9」のデータ(都道府県が群馬)を取得する
df.loc[9]
また、loc
関数を使用して列を取得することもできます。行にコロンを指定すると「全ての行」を意味します。
# dfの中から行のインデックスが「9」、カラム名が「都道府県名」のデータを取得する
df.loc[9, '都道府県名']
loc関数の応用
loc
関数は、単一のラベル、ラベルのリスト、ラベルのスライスオブジェクト、真偽値リスト、条件式の指定など、様々なデータ指定が可能です。
例えば、以下のように条件式を利用して特定のデータを抽出することができます。
# priceが500より大きいデータ(itemC、itemD)を抽出
loc_sample_data.loc[loc_sample_data["price"] > 500]
また、条件式に加えて、特定の列を指定してデータを抽出することも可能です。
# 条件は先ほど同様ですが、今回はproducing_area列のみを抽出
loc_sample_data.loc[loc_sample_data["price"] > 500, ["producing_area"]]
まとめ
以上、PythonのPandasライブラリに含まれるloc
関数の使い方について解説しました。データ分析を行う際には、このようなデータの抽出方法を理解しておくことが重要です。Pandasを使いこなすには練習あるのみです。ぜひ、自分の手元のデータでloc
関数を試してみてください。.