Pythonのデータ分析ライブラリであるpandasには、データフレームの列に対するクエリ操作を行うための便利な関数があります。その一つがquery
関数です。
pandas.DataFrame.queryの基本的な使用方法
まず、pandasのデータフレームを作成します。以下の例では、さまざまなタイプのデータを持つ列を持つデータフレームを作成しています。
import pandas as pd
import numpy as np
df = pd.DataFrame({
'a': range(1, 6),
'b': range(10, 0, -2),
'c c' : [1, 3, 5, 7, 9],
'd' : [2, np.nan, np.inf, None, 10],
'e' : ['a', 'b', 'c', 'd', 'e'],
'f' : [False, True, True, False, True]
})
次に、query
関数を使用して、特定の条件を満たす行を抽出します。
# a列の値が3である行を抽出
df.query('a == 3')
# a列の値が3でない行を抽出
df.query('a != 3')
# a列の値が3より大きい行を抽出
df.query('a > 3')
複数の条件を組み合わせたクエリ
query
関数は、複数の条件を組み合わせて使用することも可能です。
# a列の値が2より大きく、かつb列の値が3より小さい行を抽出
df.query('a > 2 and b < 3')
# a列の値が2より大きい、またはb列の値が3より小さい行を抽出
df.query('a > 2 or b < 3')
以上のように、pandasのquery
関数を使用すると、データフレームの列に対する複雑なクエリ操作を簡単に行うことができます。これにより、データ分析の効率を大幅に向上させることが可能です。.