深層強化学習の応用事例について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
深層強化学習の技術の進展
- 「DQN(Deep Q-Network)」→深層強化学習の価値ベースの代表的アルゴリズム
- 「Q値(状態行動価値)」→各状態においてエージェントがある行動を実行することで得られる報酬の期待値
- 1つの状態・行動の組合せ→1つのQ値が割り当てられる
- 「Q学習」→Q値を最大とするよう学習する手法
- 「経験再生(Experience Replay)」→環境を探索するなかで得られる経験データをリプレイバッファに保存し、そこから適切なタイミングでランダムに抜き出して学習に利用する
- 「ターゲットネットワーク(Target Network)」→現在学習中のネットワークと、過去に遡ったネットワークの「TD誤差」を教師データのように使う仕組み
- ダブルDQN(Double DQN;DDQN)
- デュエリングネットワーク(Dueling Network)
- ノイジーネットワーク(Noisy Network)
- Rainbow
深層強化学習のゲームへの応用
- 2013年、「Atari社」が開発したゲームでの攻略スコアが人間を超えた
- 2015年、DeepMind社が開発した「AlphaGo(アルファ碁)」が世界トップ棋士に勝利
→探索にモンテカルロ木探索法を使用、基盤の状況認識にCNNを使用 - 人間がプレイした棋譜データを学習データに使用し、教師あり学習を行っている
- 2017年10月、「AlphaGo Zero(アルファ碁ゼロ)」
→完全自己対局(Self-play)で学習している
※最初から自分自身と戦うことで得られたデータのみで深層強化学習を行う
(完全にゼロベースから学習を進めた方がよい場合もある) - 2017年12月、「Alpha Zero(アルファ・ゼロ)」
→囲碁以外の将棋やチェスでも勝てる性能を示す - 2019年、「Alpha Star(アルファ・スター)」
方策ベース、価値ベース
方策ベース | ・行動を決定するための方策を、直接的に改善する方策ベースの手法 ・「方策勾配法」 ・累積報酬の期待値が最大となるよう、方策関数のパラメータを「勾配降下法」を用いて直接的に最適化 ・UNREAL、REINFORCEなど ・連続的な行動空間を持つ場合によく用いられる |
---|---|
価値ベース | ・行動を決定するための方策を、間接的に改善する方策ベースの手法 ・「価値反復法」 ・価値(累積報酬の期待値)が最大となるような行動を導き出し、最適な行動を選択する方策が間接的に得られる ・Q学習、SARSAなど ・深層強化学習でよく用いられる |
モデルベース強化学習、モデルフリー強化学習
モデルベース強化学習 | ・環境についての情報が必要な強化学習 ・「環境パラメータ」(状態遷移確率、マルコフ決定過程)が既知で、明示的に推定できることが条件 ・動的計画法(価値反復法、方策反復法) |
---|---|
モデルフリー強化学習 | ・環境に関するパラメータを明示的に推定せず、経験から価値を推定 ・方策ベースの方策勾配法、価値ベースのQ学習やSARSAなど |
Actor-Critic
- 「Actor-Critic」→行動を決めるActor(行動器)を直接改善しながら、方策を評価するCritic(評価器)を同時に学習させるアプローチ
- 方策ベースと価値ベースを組み合わせた手法
- 報酬のゆらぎから影響を受けにくくなり、学習を安定化および高速化できるなどのメリットあり