AIの探索・推論の仕組み・動向について。
目次
全体像
- 迷路(探索木)
- ハノイの塔
- ロボットの行動計画
- ボードゲーム
- モンテカルロ法
ロボットの行動計画
「プランニング」と呼ばれ、ロボットが目標を達成するために必要な一連の行動を以下の要素のもとに決定するプロセスのことです。
- 前提条件
- 行動
- 結果
研究 | 内容 |
---|---|
STRIPS | 「Stanford Research Institute Problem Solver」の略。 「前提条件」「行動」「結果」という3つの組み合わせで記述する。 |
SHRDLU | 1968年~1970年、テリー・ウィノグラードによって開発されたシステム。 積み木の世界で完全に再現する研究。 後に、「Cycプロジェクト」に引き継がれていく。 |
ボードゲーム
ボードゲーム(オセロ、チェス、将棋、囲碁)をコンピュータで解こうとするものです。
2016年、AI囲碁プログラム「AlphaGo」が人間のプロ棋士に勝ち越したニュースが有名です。
ポイント | 内容 |
---|---|
コスト | 効率性を高めるために「コスト」の概念を取り入れ、いかに最も低いコストで探索することができるかを測っていくというもの。 ここでは、「ヒューリスティックな知識」(経験的・直感的な知識)を用いていくというアプローチが取られます。 |
Mini-Max法 | 自分のターンでは自分にとって有利になるように(高スコアになるように)手を打ち、相手のターンでは相手は相手自身にとって有利になるような手を打つはずだという前提のことです。 |
αβ法 | 「αカット」 →自分のターンで、探索する必要のない相手の打ち手パターンをカットする行為。 「βカット」 →他人のターンで、探索する必要のない自分の打ち手パターンをカットする行為。 |
モンテカルロ法
旧来の方式では、探索しなければならない組合せの数が多いということのほか、ゲームのスコア設定(コスト評価)を人間が決めていた点に問題があると考えられました。
そこで、「モンテカルロ法」では、ある局面まで進んだらいったんスコア評価を放棄し、ひたすらランダムに手を指し続けるシミュレーションを行って終局(プレイアウト)パターンをピックアップし、それに対してスコア評価していくことにしました。
人間がスコアの付け方を考えるのではなく、とにかくコンピュータに数多く打ってもらってパターンを抽出し、そのなかで最良のものを選んでいくというものです。
ただし、あくまでこれは「力任せ(ブルートフォース)」な方法であるという課題はあります。
そこで、「ディープラーニングの技術」を使い、人間の思考方法をコンピュータで実現できたことによって、ついに人間のプロ棋士に勝つというところまで成長できたと考えられています。