Pythonのデータ分析ライブラリであるPandasは、大量のデータを効率的に処理するための強力なツールです。その中でも、DataFrameのフィルタリング機能は非常に便利で、データ分析の現場で頻繁に使用されます。
DataFrameのフィルタリング基本
PandasのDataFrameでは、特定の条件を満たす行や列を抽出することができます。これをフィルタリングと呼びます。基本的なフィルタリングの構文は以下の通りです。
df[検索条件]
この構文を使って、DataFrameから特定の条件を満たすデータを抽出することができます。
比較演算子によるフィルタリング
比較演算子を使用してデータを抽出することも可能です。以下のコードは、DataFrameの列Aの値が2以上の行を抽出しています。
df[df.A >= 2]
範囲指定によるフィルタリング
範囲指定によるフィルタリングも可能です。以下のコードは、DataFrameの列Bの値が20より大きく40より小さい行を抽出しています。
df[(df.B > 20) & (df.B < 40)]
複数条件を組み合わせたフィルタリング
複数の条件を組み合わせてフィルタリングすることも可能です。以下のコードは、DataFrameの列Aの値が2より大きく、かつ、列Cの値が400より小さい行を抽出しています。
df[(df.A > 2) & (df.C < 400)]
正規表現によるフィルタリング
str.contains
メソッドを使用すると、正規表現を指定したフィルタリングができます。
df[df['Name'].str.contains('S.*')]
特定条件を含む要素のフィルタリング
isin
メソッドを使用すると、特定の条件を含む要素のフィルタリングができます。
df[df.Color.isin(['赤', '青', '桃'])]
以上、PythonとPandasを使ったDataFrameのフィルタリングについて解説しました。これらのテクニックを使うことで、大量のデータから必要な情報を効率的に抽出することができます。データ分析の現場で活躍するために、ぜひマスターしてください。.