ディープラーニングで拡張した強化学習である「深層強化学習」について。
目次
ゲームAIと深層強化学習
- ゲームAIは、深層強化学習の応用で最も盛んな分野のひとつ
- ディープラーニング以前のゲームAI
→ゲームの現在の局面の良さを判断する評価関数を人間が設計し、これをもとにゲームの局面をノードとするゲーム木を探索し、最良の行動を求める手法
※ルールベース手法(ゲーム展開に対して特定の行動を決定するルールを組み込んだ手法)
※ディープラーニングを使わない古典的な強化学習
→囲碁のトッププレーヤーには及ばず、リアルタイムの行動が要求されるゲームの分野では性能が発揮できず - ディープラーニング後のゲームAI
→評価関数をディープニューラルネットワークに置き換える流れ
→深層強化学習と従来のゲーム木の探索、その他のディープラーニングを使った画像認識・系列処理の手法を取り入れる
→飛躍的な性能向上、人間のトッププレーヤーを破っていくことに
ボードゲームとゲームAI
「モンテカルロ木探索」
→複数回のゲーム木の展開によるランダムシミュレーション(プレイアウト)をもとに、近似的に良い打ち手を決定する手法
(2000年代前半に考案され、囲碁AIの分野で大きな成果)
AlphaGo
- 2016年、DeepMind社が開発したゲームAI
- モンテカルロ探索木に深層強化学習の手法を組み合わせ
- 盤面から勝率を計算するディープニューラルネットワーク(バリューネットワーク、ポリシーネットワーク)が用いられている
- 人間の棋譜データを使った教師あり学習
- 複製したAlphaGoとの自己対戦(self-play)で獲得された経験を用いた深層強化学習
AlphaGo Zero
- AlphaGoの発展系
- ゼロからの学習(人間の棋譜データを用いた教師あり学習は一切行わず、最初から自己対戦を行って得たデータのみで深層強化学習)
- AlphaGoを上回る強さに到達
Alpha Zero
- AlphaGoの完成形
- 囲碁だけでなく、将棋やチェスの分野でも人間や他のゲームAIを圧倒する性能
- 人間のデータを一切使用せず、自己対戦のみで学習
その他のゲームとゲームAI
「マルチエージェント強化学習(Multi-Agent Reinforcement Learning:MARL)」
→これまでの単一エージェントによる強化学習ではなく、複数エージェントによる強化学習
OpenAI Five
- 2018年、OpenAIが発表したゲームAI
- 多人数対戦型ゲーム・Dota2(MOBA)において、世界トップレベルのプレーヤーで構成されるチームを打倒できるゲームAI
- ディープニューラルネットワークに、系列情報を処理するLSTMを使い、PPO(強化学習のアルゴリズム)を使って大規模な計算資源で学習した5つのエージェントのチーム
→世界トップレベルのプレーヤーに勝利 - 学習アルゴリズムは既存のシンプルなもの
- 特徴:学習に使った膨大な計算資源と学習時間
(5万個以上のCPU、1000個以上のGPUを使用して10ヶ月に及ぶ強化学習)
AlphaStar
- 2019年、DeepMind社が発表したゲームAI
- 対戦型ゲーム・スタークラフト2(RTS)において、グランドマスターのトッププレーヤーを打倒できるゲームAI
- ResNet、LSTM、ポインターネットワーク、トランスフォーマーなど、画像処理や自然言語処理の手法も多く取り入れたネットワークを使って学習
- 強化学習時に、ゲーム理論や自己対戦の発展系の手法を使うなど、様々な人工知能技術を巧みに組み合わせて構成
(人工知能技術の集大成的アルゴリズム)