PythonのライブラリであるPandasは、データ分析作業を効率的に行うための強力なツールです。その中でも、quantile()
関数は特に重要で、データセットの任意の分位数を計算するのに使用されます。
Pandasのquantile()関数の基本的な使用方法
Pandasのquantile()
関数の基本的な構文は次のとおりです。
DataFrame.quantile(q=0.5, axis=0, numeric_only=True, interpolation='linear')
ここで、q
は求めたい分位数(0から1の間の値)を指定します。例えば、第2四分位数(中央値)を求める場合は0.5
を指定します。
外れ値の確認と除去
データ分析や機械学習では、精度を上げるために外れ値を除去し、適切なデータセットを作成することが重要です。以下に、Pandasのquantile()
関数を使用して外れ値を確認し、除去する方法を示します。
まず、データセットを準備します。
import warnings
warnings.simplefilter('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from sklearn.datasets import load_boston
boston = load_boston()
boston_df = pd.DataFrame(data=boston.data, columns=boston.feature_names)
boston_df['target'] = boston.target
次に、外れ値を確認します。
boston_df[['CRIM', 'target']].describe()
この結果から、CRIM
(一人当たりの犯罪率)の最大値が異常に高いことがわかります。これは外れ値と考えられます。
外れ値を除去するには、quantile()
関数を使用して分位数を計算し、その値を基にデータを絞り込みます。
q = boston_df.CRIM.quantile(0.95)
new_boston_df = boston_df.query('CRIM < @q')
以上のように、Pandasのquantile()
関数を使用することで、データの分位数を計算し、外れ値を確認および除去することが可能です。これにより、より適切なデータセットを作成し、データ分析や機械学習の精度を向上させることができます。.