重回帰分析は、複数の説明変数を用いて目的変数を推定する手法です。PythonとNumPyを用いて重回帰分析を行う方法を以下に示します。
まず、必要なライブラリをインポートします。
from sklearn import linear_model
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
次に、データを読み込みます。今回は、UC バークレー大学の UCI Machine Leaning Repository にて公開されている、「Wine Quality Data Set (ワインの品質)」の赤ワインのデータセットを利用します。
wine = pd.read_csv("winequality-red.csv")
説明変数と目的変数を設定します。ここでは、説明変数に “density (濃度)”と”volatile acidity (揮発酸)”を、目的変数に “alcohol (アルコール度数)”を使用します。
x = wine[['density', 'volatile acidity']]
y = wine[['alcohol']]
最後に、LinearRegression
クラスを使用して重回帰分析を行います。
clf = linear_model.LinearRegression()
clf.fit(x, y)
以上で、PythonとNumPyを用いた重回帰分析の基本的な流れを説明しました。この知識を基に、さまざまなデータセットに対して重回帰分析を適用してみてください。.