\

DataFrameとは

DataFrameは、Pandasの提供するデータ形式の一つです。行、列の名前をもたせることができ、さながらMicrosoft ExcelなどのSpreadsheetのような見た目をしています。

DataFrameの基本的な操作

DataFrameの基本的な操作を確認します。また、データ解析の際に必要なデータの統計量の計算についても触れていきます。

import pandas as pd
import numpy as np
from sklearn import datasets
from scipy import stats

iris = datasets.load_iris()
df = pd.DataFrame(iris.data)
df["label"] = [iris.target_names[i] for i in iris.target]

統計量

統計量の計算を一発でやってしまいましょう。df.describe()メソッドを使うと、各特徴ごとに以下のような条件を計算したDataFrameを返します。

df.describe()

DataFrameでデータの前処理

Deep Learningをするにもscikit-learnに入っているような従来の機械学習をするにも、データの前処理は欠かせません。これをDataFrameの機能を使って簡単に終わらせてしまいましょう。

標準化

標準化は、データをN (0,1)になるように変換します。つまり以下の処理を行います。

$$
(x – x_{mean}) / x_{std}
“`

scipyの関数を使えば簡単にできてしまうこの標準化、DataFrameと組み合わせて使ってみましょう。DataFrameの各行、あるいは各列に対する処理をするにはdf.applyメソッドを使います。

python
df2 = df.iloc[:,:-1].apply(stats.zscore, axis=0)
.

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です