メニュー

長崎・佐賀/クラウド会計専門の税理士・キャッシュフローコーチ | 酒井寛志税理士事務所

酒井寛志税理士事務所

深層強化学習（ディープラーニング+強化学習）②

2025年2月15日

ディープラーニングで拡張した強化学習である「深層強化学習」について。

目次

ゲームAIと深層強化学習

ゲームAIは、深層強化学習の応用で最も盛んな分野のひとつ
ディープラーニング以前のゲームAI
→ゲームの現在の局面の良さを判断する評価関数を人間が設計し、これをもとにゲームの局面をノードとするゲーム木を探索し、最良の行動を求める手法
※ルールベース手法（ゲーム展開に対して特定の行動を決定するルールを組み込んだ手法）
※ディープラーニングを使わない古典的な強化学習
→囲碁のトッププレーヤーには及ばず、リアルタイムの行動が要求されるゲームの分野では性能が発揮できず
ディープラーニング後のゲームAI
→評価関数をディープニューラルネットワークに置き換える流れ
→深層強化学習と従来のゲーム木の探索、その他のディープラーニングを使った画像認識・系列処理の手法を取り入れる
→飛躍的な性能向上、人間のトッププレーヤーを破っていくことに

ボードゲームとゲームAI

「モンテカルロ木探索」
→複数回のゲーム木の展開によるランダムシミュレーション（プレイアウト）をもとに、近似的に良い打ち手を決定する手法
（2000年代前半に考案され、囲碁AIの分野で大きな成果）

AlphaGo

2016年、DeepMind社が開発したゲームAI
モンテカルロ探索木に深層強化学習の手法を組み合わせ
盤面から勝率を計算するディープニューラルネットワーク（バリューネットワーク、ポリシーネットワーク）が用いられている
人間の棋譜データを使った教師あり学習
複製したAlphaGoとの自己対戦（self-play）で獲得された経験を用いた深層強化学習

AlphaGo Zero

AlphaGoの発展系
ゼロからの学習（人間の棋譜データを用いた教師あり学習は一切行わず、最初から自己対戦を行って得たデータのみで深層強化学習）
AlphaGoを上回る強さに到達

Alpha Zero

AlphaGoの完成形
囲碁だけでなく、将棋やチェスの分野でも人間や他のゲームAIを圧倒する性能
人間のデータを一切使用せず、自己対戦のみで学習

その他のゲームとゲームAI

「マルチエージェント強化学習（Multi-Agent Reinforcement Learning：MARL）」
→これまでの単一エージェントによる強化学習ではなく、複数エージェントによる強化学習

OpenAI Five

2018年、OpenAIが発表したゲームAI
多人数対戦型ゲーム・Dota2（MOBA）において、世界トップレベルのプレーヤーで構成されるチームを打倒できるゲームAI
ディープニューラルネットワークに、系列情報を処理するLSTMを使い、PPO（強化学習のアルゴリズム）を使って大規模な計算資源で学習した5つのエージェントのチーム
→世界トップレベルのプレーヤーに勝利
学習アルゴリズムは既存のシンプルなもの
特徴：学習に使った膨大な計算資源と学習時間
（5万個以上のCPU、1000個以上のGPUを使用して10ヶ月に及ぶ強化学習）

AlphaStar

2019年、DeepMind社が発表したゲームAI
対戦型ゲーム・スタークラフト2（RTS）において、グランドマスターのトッププレーヤーを打倒できるゲームAI
ResNet、LSTM、ポインターネットワーク、トランスフォーマーなど、画像処理や自然言語処理の手法も多く取り入れたネットワークを使って学習
強化学習時に、ゲーム理論や自己対戦の発展系の手法を使うなど、様々な人工知能技術を巧みに組み合わせて構成
（人工知能技術の集大成的アルゴリズム）

この記事が気に入ったら
いいねまたはフォローしてね！

Follow @wideworld16 Follow Me

URLをコピーしました！