Pythonを使用した機械学習のデータ前処理における「標準化」について解説します。標準化は、データの平均を0、標準偏差を1に変換するプロセスで、これによりデータは正規分布に近い形になります。
標準化とは
標準化は、各特徴量の平均を0、標準偏差が1になるような分布に変換しています。このようにデータの大小やばらつきを変えずに、データの範囲を合わせることを特徴量スケーリングと呼びます。
Pythonでの標準化の実装
Pythonのライブラリであるsklearn
からStandardScaler
を使うことで簡単に標準化を行うことができます。以下にその実装方法を示します。
from sklearn.preprocessing import StandardScaler
# 変数(scaler)を作成
scaler = StandardScaler()
# fit_transformで変換を行う
df_sc = scaler.fit_transform(df[col])
このコードは、df[col]
に対して標準化を行い、結果をdf_sc
に格納します。
まとめ
機械学習で、数値のスケールが処理に影響を与えるモデルに関しては特徴量スケーリングが必要です。sklearn
を利用することで簡単に実施できるのでぜひ使ってみてください。.