ディープラーニングで拡張した強化学習である「深層強化学習」について。
目次
「深層強化学習」の基本手法
- 「深層強化学習(deep reinforcement learning)」→ディープラーニングと強化学習とを組み合わせた手法
- 「DQN(Deep Q-Network)」→2013年、DeepMind社から発表された深層強化学習の基本的な手法
- DQNは、atari社が開発した家庭用ゲーム機Atari2600の各ゲームを、人間以上のスコアで攻略できることが示された
「DQN」と拡張
- Q学習では、特定の状態に対し、1つの行動価値(Q値)を割り当て、その行動価値に対する学習を行っている
→デジタルゲーム・ロボット制御においては、状態がゲームや実世界の画像として与えられ、画像内のピクセル単位の多少の違いでも別の状態として認識されていまい、状態数が膨大になってしまい、1つずつの行動価値を割り当てるのは非現実的 - DQNでは、ゲーム・実世界の画像をそのままディープニューラルネットワークの入力とし、行動候補の価値関数や方策を出力として学習するアプローチを取る
- DQNでは、新たな学習手法である”経験再生(experience replay)”・”ターゲットネットワーク(target network)”が導入
- 「経験再生」→環境を探索する過程で得た経験データを、リプレイバッファに保存、あるタイミングでランダムに複数抜き出し、ディープニューラルネットワークの学習に使う手法
→学習に使うデータの時間的偏りをなくし、学習の安定化を図る - 「ターゲットネットワーク」→現在学習しているネットワークと、学習の時間的差分のある過去のネットワークに、教師のような役割をさせる手法
→価値推定を安定させる - 「ダブルDQN(double deep q-network)」→経験再生とターゲットネットワークの使い方を工夫した拡張手法
- 「優先度付き経験再生(prioritized experience replay)」→経験再生とターゲットネットワークの使い方を工夫した拡張手法
- 「デュエリングネットワーク(dueling network)」→ディープニューラルネットワークのアーキテクチャや出力を工夫した拡張手法
- 「カテゴリカルDQN(categorical deep q-network)」→ディープニューラルネットワークのアーキテクチャや出力を工夫した拡張手法
- 「ノイジーネットワーク(noisy network)」→ディープニューラルネットワークのアーキテクチャや出力を工夫した拡張手法
- 「Rainbow」→これらすべてを組み合わせた手法
→飛躍的に性能が向上
→その後も、複数CPUやGPUを用いる分散型強化学習により、収束速度が比較的に上昇 - 「内発的報酬(intrinsic reward)」→きわめて難易度の高いゲームでも、人間以上のパフォーマンスを発揮
その他の発展的手法
- 「モデルベース強化学習」→環境モデルを作って深層強化学習を行うもの
- 2020年前半、DeepMind社から発表されたAgent57→Atari2600のベンチマークとなる57ゲームで人間のスコアを超える