Pythonは様々な用途で使われますが、ディープラーニングや分析などの機械学習が強いです。この記事では、PythonとJupyter Notebookを用いた機械学習の基本的な手順について説明します。
Jupyter Notebookとは
Jupyter Notebookは、PythonのコードをWebブラウザ上のNotebookからプログラムを実行できたり、ドキュメントを作成できるツールです。データ分析の現場や、研究機関などでも頻繁に使われています。
scikit-learnライブラリ
Pythonの機械学習ライブラリであるscikit-learnを用いて、機械学習の基本的な手順を紹介します。scikit-learnは以下の4つのカテゴリに分かれています。
- 分類(classification)
- 回帰(regression)
- 次元圧縮(dimensionality reduction)
- クラスタリング(clustering)
今回は「回帰(regression)」について紹介します。
データの準備
まずは、データの準備から始めます。ここでは、ボストン市の住宅価格データを使用します。
from sklearn.datasets import load_boston
boston = load_boston()
データの分割
次に、データを訓練データとテストデータに分割します。
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 0)
モデルの訓練
訓練データを用いてモデルを訓練します。
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, Y_train)
モデルの評価
最後に、テストデータを用いてモデルの性能を評価します。
Y_pred = model.predict(X_test)
以上が、PythonとJupyter Notebookを用いた機械学習の基本的な手順です。PythonとJupyter Notebookを活用すれば、データ分析や機械学習を効率的に行うことができます。.