難易度:★★★★★
本講座では、強化学習で良く扱われる問題に触れつつ強化学習の基本的な仕組みを理解し、アルゴリズムを実装して、どのような問題を解くことができるかを実感していただきます。未知の問題に対しても最低限のアルゴリズムを実装できるようになることが目標です。
Mission 1
ここでは強化学習の基本的な問題設定や仕組みを説明します。そもそも強化学習とは何か、どのような問題設定で、どのようなアルゴリズムによって問題にアプローチをするかを理解してもらうことが目的です。
このタスクでは強化学習の基本的な仕組みを理解しているかどうか確認します。
ここでは強化学習で扱う問題設定であるマルコフ決定過程(MDP)を迷路のゲームを通して理解していただきます。
Mission 2
ここでは単純な迷路を題材として、実際に強化学習アルゴリズムを実装してその結果をみます。まずは環境の情報(遷移確率や報酬関数)が分かっている場合に適用できるアルゴリズムを扱い、次に分かっていない状態におけるアプローチとしてモデルフリーのアルゴリズムを扱います。強化学習アルゴリズムの考え方や基本的な仕組みを理解してそれぞれのアルゴリズムを実装できるようになることが目的です。
ここでは環境が既知の場合に適用できるアルゴリズムを説明します。前回扱った迷路ゲームなどに適用して理解を深めていただきます。
ここでは環境が未知の場合に適用できるアルゴリズムを説明します。前回扱った迷路ゲームなどに適用して理解を深めていただきます。
このタスクでは今まで学んだ強化学習アルゴリズムの基本を理解しているかどうか確認します。
Mission 3
ここでは、大きく分けて2つのテーマについて学びます。1つは、本格的に強化学習の問題に取り組む際にはアルゴリズム全体をどのように実装するべきかという点について、もう一つは、観測される状態が連続値である場合の問題への取り組み方についてです。これらについて理解することは、近年注目を集めている深層強化学習への足がかりにもなります。本ミッションを通して、あらゆる種類の強化学習問題に取り組むことができるという自信を身につけましょう。
ここでは、強化学習アルゴリズムを含んだ全体の実装方法を学びます。
ここでは、実装した基本モジュールを駆使して倒立振子の問題を攻略します。