難易度:★☆☆☆☆
本コンテンツでは、最初に基礎的な機械学習手法である「単回帰分析と重回帰分析」について学んだ上で、 Pythonで機械学習やデータ分析を行う際に用いられることの多いNumPy、Scikit-learn、Pandas、Matplotlibといったライブラリを使って、実際のデータ分析時に行う様々な処理を実行する方法を学んでいきます。どれもPythonでデータ分析を行う上では避けて通ることのできないライブラリとなっているので、本コンテンツを通してこれらのライブラリの扱いに慣れておきましょう。
Mission 1
基礎的な機械学習手法である「単回帰分析と重回帰分析」について学びます。
Mission 2
Python で数値計算を高速に行うためのライブラリである NumPy の使い方を学びます。 本Missionの目標は、単回帰分析と重回帰分析の章で学んだ重回帰分析を行うアルゴリズムをNumPy を用いて実装することです。
Numpyライブラリの基本的な扱い方を学びます。
Mission 3
scikit-learn は Python のオープンソース機械学習ライブラリです。 様々な機械学習の手法が統一的なインターフェースで利用できるようになっています。 scikit-learn では NumPy の ndarray でデータやパラメータを取り扱うため、他のライブラリとの連携もしやすくなっています。本Missionでは、この scikit-learn というライブラリを用いて、データを使ってモデルを訓練し、評価するという一連の流れを解説します。
前章で NumPy を用いて実装した重回帰分析を、scikit-learn を使うことで、より大きなデータセットに対して適用します。
過学習を防ぐために、色々な方法が研究されています。 ここでは、データに前処理を行い、テスト用データセットを用いて計算した決定係数を改善します。
Mission 4
Pandas はデータ操作によく用いられるパッケージであり、CSV などの一般的なデータ形式で保存されたデータの読み込みや、条件を指定しての一部データの抽出など、機械学習手法で取り扱うデータを整理するのに便利なライブラリです。本Missionを通じて、Pandasの基本的な扱い方を一通り学んでいきましょう。
CSVファイルをはじめとするテーブル形式のデータを扱う際に便利なPandasライブラリの使い方について学びます。