深層強化学習をロボット制御に応用する場合の課題について。
目次
次元の呪い(curse of dimensionality)
- 連続値のセンサや制御信号のデータを一定幅で離散化するだけでは状態や行動の数が指数的に増大し、学習が困難になる問題
- 強化学習では基本的には低次元で離散値の状態や行動を扱うものの、ロボット制御においては、頻繁に連続値のセンサデータや制御信号を扱うため、状態や行動の適切な離散化が必要になってしまう
- 価値関数や方策を「関数近似」し、高次元の連続値のセンサデータや制御信号を状態や行動として扱うことができる
→「関数近似器」としてディープニューラルネットワークを用いる
→データの特徴表現を表現できる期待あり
→適切な手法の選択やモデル設計が必要
状態表現学習(state representation learning)
問題に対し適切な方策を学習できるよう、エージェントは、入力となるセンサデータから「状態」に関する良い特徴表現を学習する必要あり。
→深層強化学習においては、”状態に関する特徴表現学習”を指す。
連続値制御(continuous control)
連続値の行動を直接出力する問題設定。
→例)DQNを利用して状態として画像という高次元データを入力に利用することができるようになったものの、出力である行動には低次元な離散値が仮定されており、ロボットが連続値(関節角、台車速度など)を扱うためには、適切な離散化が必要。
報酬設計の困難性
- 報酬関数の設計によって、得られる方策の挙動が大きく異なってくる
→適切な報酬関数の設定が重要 - 最終状態で報酬設計することもできるが、途中の状態や行動に対する評価がないと学習が困難になる可能性あり
- 中間的な状態や行動に報酬を与えることもできるが、それらを搾取するような局所的な方策を学習するにとどまり、最終的に解かせたいタスクが遂行されない可能性もあり
- 「報酬成形(reward shaping)」→”報酬関数の設計”と”学習された方策の挙動の確認”を繰り返し、適切な学習が行われるよう報酬関数を作り込むことが必要
サンプル効率の低さとデータ収集コストの高さ
- 強化学習では、データを収集しながら方策の学習を行う
→以前に集めたデータが、必ずしも現在の方策の改善に寄与するとは限らない - 強化学習では、報酬や価値といった弱い情報に基づき学習を行う(明確な正解データを与えられる教師あり学習とは異なる)
→学習時に多くのサンプルが必要になる
→サンプル効率が低い - ロボットのハードウェアは高価で大量に用意することが難しく、かつ、実時間でしか動かせない(計算機でのシミュレーションと異なる)
→データ収集コストが高い
→効率的なデータ収集と、なるべく少ないサンプルからよい方策を学習できる手法の開発がポイントになる
方策の安全性担保の困難性
- 試行錯誤を繰り返しながら方策の学習を行っていく
→探索的な行動が必要
→ロボットのような実世界での探索には、故障や(環境や人間への)危害のリスクが伴う
→実行する行動の安全性を担保する仕組みを導入する必要あり