深層強化学習(ディープラーニング+強化学習)②

ディープラーニングで拡張した強化学習である「深層強化学習」について。

目次

ゲームAIと深層強化学習

  • ゲームAIは、深層強化学習の応用で最も盛んな分野のひとつ
  • ディープラーニング以前のゲームAI
    →ゲームの現在の局面の良さを判断する評価関数を人間が設計し、これをもとにゲームの局面をノードとするゲーム木を探索し、最良の行動を求める手法
    ルールベース手法(ゲーム展開に対して特定の行動を決定するルールを組み込んだ手法)
    ※ディープラーニングを使わない古典的な強化学習
    →囲碁のトッププレーヤーには及ばず、リアルタイムの行動が要求されるゲームの分野では性能が発揮できず
  • ディープラーニング後のゲームAI
    評価関数をディープニューラルネットワークに置き換える流れ
    →深層強化学習と従来のゲーム木の探索、その他のディープラーニングを使った画像認識・系列処理の手法を取り入れる
    →飛躍的な性能向上、人間のトッププレーヤーを破っていくことに

ボードゲームとゲームAI

「モンテカルロ木探索」
→複数回のゲーム木の展開によるランダムシミュレーション(プレイアウト)をもとに、近似的に良い打ち手を決定する手法
(2000年代前半に考案され、囲碁AIの分野で大きな成果)

AlphaGo

  • 2016年DeepMind社が開発したゲームAI
  • モンテカルロ探索木に深層強化学習の手法を組み合わせ
  • 盤面から勝率を計算するディープニューラルネットワーク(バリューネットワーク、ポリシーネットワーク)が用いられている
  • 人間の棋譜データを使った教師あり学習
  • 複製したAlphaGoとの自己対戦(self-play)で獲得された経験を用いた深層強化学習

AlphaGo Zero

  • AlphaGoの発展系
  • ゼロからの学習(人間の棋譜データを用いた教師あり学習は一切行わず、最初から自己対戦を行って得たデータのみで深層強化学習)
  • AlphaGoを上回る強さに到達

Alpha Zero

  • AlphaGoの完成形
  • 囲碁だけでなく、将棋やチェスの分野でも人間や他のゲームAIを圧倒する性能
  • 人間のデータを一切使用せず、自己対戦のみで学習

その他のゲームとゲームAI

「マルチエージェント強化学習(Multi-Agent Reinforcement Learning:MARL)」
→これまでの単一エージェントによる強化学習ではなく、複数エージェントによる強化学習

OpenAI Five

  • 2018年、OpenAIが発表したゲームAI
  • 多人数対戦型ゲーム・Dota2(MOBA)において、世界トップレベルのプレーヤーで構成されるチームを打倒できるゲームAI
  • ディープニューラルネットワークに、系列情報を処理するLSTMを使い、PPO(強化学習のアルゴリズム)を使って大規模な計算資源で学習した5つのエージェントのチー
    →世界トップレベルのプレーヤーに勝利
  • 学習アルゴリズムは既存のシンプルなもの
  • 特徴:学習に使った膨大な計算資源と学習時間
    (5万個以上のCPU、1000個以上のGPUを使用して10ヶ月に及ぶ強化学習)

AlphaStar

  • 2019年、DeepMind社が発表したゲームAI
  • 対戦型ゲーム・スタークラフト2(RTS)において、グランドマスターのトッププレーヤーを打倒できるゲームAI
  • ResNet、LSTM、ポインターネットワーク、トランスフォーマーなど、画像処理や自然言語処理の手法も多く取り入れたネットワークを使って学習
  • 強化学習時に、ゲーム理論や自己対戦の発展系の手法を使うなど、様々な人工知能技術を巧みに組み合わせて構成
    (人工知能技術の集大成的アルゴリズム)

この記事が気に入ったら
いいね または フォローしてね!

  • URLをコピーしました!
目次