AIでいう「機械学習」、様々な手法があります。
目次
機械学習のカテゴリー
AIでいう「機械学習」、様々な手法があります。
- 教師あり学習
- 教師なし学習
- 強化学習
機械学習のカテゴリー | 概要 |
---|---|
教師あり学習 | 与えられた入力データをもとに、そのデータがどのような出力になるのか識別・予測する。 ・「回帰問題」(数字を予測する場合=連続する値) ・「分類問題」(カテゴリーなどを予測する場合=連続しない離散値) |
教師なし学習 | 入力データそのものが持つ構造・特徴を対象にする。 ・顧客層、関係性など。 |
強化学習 | 行動を学習する仕組み(目的とする報酬を最大化するためにどのような行動を取ればよいかを学習していく)。 ・エージェント:環境→状態→フィードバック→判断→行動 ※”行動”のよさを報酬(スコア)としてフィードバックしていく |
それぞれの強化学習のカテゴリーは、優劣があるわけではなく、対象とする課題の種類が異なるのみ。
「強化学習」の手法
- 「時刻(時点)」における「環境」での「状態」を把握
- 「状態」から「行動」を選択し、実行する
- 「環境」が新しくなる
- 新しくなったことによる「報酬」を獲得する
- 「報酬」をもとに、選択した「行動」の良し悪しをフィードバックする
強化学習の目的としては、「割引率」を加味しつつ、”将来にわたって獲得できる累積報酬を最大化すること”であり、「累積報酬を最大化するような「状態」と「行動」との対応関係を求めること」になると考えられています。
- バンディットアルゴリズム
- マルコフ決定過程モデル
- 価値関数
- 方策勾配
バンディットアルゴリズム
- 無数にあるもののうち、行動の選択肢をどこまでと考えるべきかが大きな課題
- 「活用」
→これまでのなかで、報酬が高かった行動を積極的に選ぶ - 「探索」
→他にもっと報酬が高い行動があるかもしれないことから、別の行動を選ぶ - 「活用」と「探索」はトレードオフの関係にあり、どうバランスを取るかがポイントになる
- 「バンディットアルゴリズム」
→「ε-greedy方策」「UCB方策」
※方策:ある状態から選ぶことができる行動の選択肢とそこからどう決定するかの戦略 - 「ε-greedy方策」:基本は「活用」だが、一定確率εで「探索」を選ぶ
- 「UCB方策」:期待値の高い選択を選ぶとしつつ、それまで試した回数が少ない行動を優先的に選ぶ
マルコフ決定過程モデル
- 「マルコフ性」
→現在の状態から将来の状態へと遷移する確率は、現在の状態にのみ起因し、過去には原因はないという前提(計算の複雑性を避けるため) - マルコフ性を仮定したモデル→「マルコフ決定過程」
価値関数
- 最適な方策を直接求める代わりに、状態や行動の”価値”を設定し、それが最大となるよう学習するアプローチ
- 「状態価値関数」
- 「行動価値関数」
→価値関数(Q値)を最適化することで、適切な行動が選択できるという理論
→「Q学習」「SARSA」
方策勾配
- 方策をあるパラメータで表される関数とし、そのパラメータを学習することで、直接方策を学習するというもの
※行動の選択肢が大量にあるロボット制御などで用いられる - 「REINFORCE」
→AlphaGoにも使用されている - 「Actor-Critic」
→価値関数ベースと方策勾配ベースの考え方を組み合わせたもの
→行動を決めるActor(行動器)と方策を評価するCritic(評価器)から成っている