PythonとPandasを使ったDataFrameのフィルタリング

Pythonのデータ分析ライブラリであるPandasは、大量のデータを効率的に処理するための強力なツールです。その中でも、DataFrameのフィルタリング機能は非常に便利で、データ分析の現場で頻繁に使用されます。

DataFrameのフィルタリング基本

PandasのDataFrameでは、特定の条件を満たす行や列を抽出することができます。これをフィルタリングと呼びます。基本的なフィルタリングの構文は以下の通りです。

df[検索条件]

この構文を使って、DataFrameから特定の条件を満たすデータを抽出することができます。

比較演算子を使用してデータを抽出することも可能です。以下のコードは、DataFrameの列Aの値が2以上の行を抽出しています。

df[df.A >= 2]

範囲指定によるフィルタリングも可能です。以下のコードは、DataFrameの列Bの値が20より大きく40より小さい行を抽出しています。

df[(df.B > 20) & (df.B < 40)]

複数の条件を組み合わせてフィルタリングすることも可能です。以下のコードは、DataFrameの列Aの値が2より大きく、かつ、列Cの値が400より小さい行を抽出しています。

df[(df.A > 2) & (df.C < 400)]

str.containsメソッドを使用すると、正規表現を指定したフィルタリングができます。

df[df['Name'].str.contains('S.*')]

isinメソッドを使用すると、特定の条件を含む要素のフィルタリングができます。

df[df.Color.isin(['赤', '青', '桃'])]

以上、PythonとPandasを使ったDataFrameのフィルタリングについて解説しました。これらのテクニックを使うことで、大量のデータから必要な情報を効率的に抽出することができます。データ分析の現場で活躍するために、ぜひマスターしてください。.