深層強化学習をロボット制御に応用する場合の課題への解決策について。
目次
”深層強化学習+ロボット制御”の課題への解決策
”深層強化学習+ロボット制御”については、以下のような課題がありました。
- 次元の呪い(curse of dimensionality)
- 報酬設計の困難性
- サンプル効率の低さとデータ収集コストの高さ
- 方策の安全性担保の困難性
これらに対し、以下のような解決策の手法が提案されています。
- 学習データの収集方法に関する工夫
- 人間が環境やロボットにさせたいタスクに関する「ドメイン知識(domain knowledge:事前知識)」を学習に組み込むための工夫
オフラインデータの利用
- オンラインのアルゴリズム(学習過程で環境内で試行錯誤して方策を獲得する枠組み)に対して、「オフラインデータ(事前に集めたデータ)」から学習する手法の研究
- 「模倣学習(imitation learning)」
→デモンストレーション(人間が期待する動作をロボットに対して教示するためのデータ)を、ロボットを操作することにより作成する - 「オフライン強化学習(offline reinforcement learning)」
→固定のデータセットが与えられるが、それよりも高い性能を持つ方策を学習しようとするもので、各状態遷移に対して報酬値が付与されているデータセットからの学習を行う。
(⇔模倣学習はデモンストレーションデータが最適)
①学習過程で実環境での探索的な行動のリスクを軽減でき、安全な形でロボット制御への利用が期待される。
②ログデータを収集しやすい問題設定との相性がよく、Webサービス(推薦システム、対話システムなど)の最適化への応用も期待される。
シミュレータの利用
- 現実世界から解きたいタスクの重要な点を切り出し、それを計算機上で再現するシミュレーションを活用した研究
- 「sim2real」→シミュレータで学習した方策を現実世界に転移して利用する設定
→「リアリティギャップ(reality gap)」(現実とシミュレータ世界の間の差異)
→シミュレータで学習した方策を実世界に転移した際に、性能を低下させる原因になる - 「ドメインランダマイゼーション(domain randomization)」→シミュレータの各種パラメータ(物体の大きさなどの幾何学的なパラメータ、摩擦などの力学的なパラメータ、光源・テクスチャなどのセンサデータのパラメータなど)を、ランダムに設定した複数のシミュレータによって生成されたデータから学習するもの
- 2019年、OpenAIが、実世界での追加学習なく、強化学習で頑健な方策を獲得する研究を公開
残差強化学習
- 従来のロボット制御における基本的な制御モジュールの出力と、実際にロボットがタスクを行う環境における最適な方策との差分を、強化学習によって学習することを目指す手法
- 強化学習に既存の制御手法を組み込むことができ、サンプル効率・安全性の面で有効な手法
- 2019年、プリンストン大学・Google社などのチームが、TossingBot(ロボットアームを使って様々な物体を把持し、指定された箱に投げ入れることができるもの)という研究を発表
→同じ投げ方をしても物体の形状や把持の仕方によって物体の運動が変わるという問題に対し、運動方程式に基づくベースとなる制御システムの出力を調整する手法が用いられる
環境モデル学習
- 「モデルフリー(model-free)の強化学習のアルゴリズム」→環境(状態の遷移)に関する知識を明示的に学習しない方式
- 「モデルベース(model-based)の強化学習のアルゴリズム」→環境に関する予測モデルを明示的に活用しながら方策の学習を行う方式
→モデルフリー手法に比べ、サンプル効率が向上するという報告がされており、今後の応用が期待される - 「世界モデル(world model)」→得られる情報を元に、自身の周りの世界に関する予測モデルを学習し、方策の学習に活用する
→実世界での知能を実現するときの重要な概念のひとつ