機械学習のモデルの精度評価の方法について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
機械学習モデルの精度への評価①
概要
- 機械学習の目的→学習データから汎用的パターンを見出すような学習を行い、未知データに対しても精度の高い予測ができるようになること
- 学習データを機械学習に取り込んで学習させる→学習済みモデルの成立→未知データに対する予測
- 未知データに対して予測する能力→「汎化性能」
- 学習を始める前に学習データを「訓練データ」と「テストデータ」に分割する
- 「訓練データ(学習データ)」→モデルを学習するために使う
- 「テストデータ」→学習後にモデルの「汎化性能」を定量的に評価するために使う
精度検証のためのデータ分割
精度を検証するために、「訓練データ」と「テストデータ」とに分ける具体的な方法について。
ホールドアウト法 | ・割合を固定し、いっぺんに分ける方法 ・データ量が大きい場合でも比較的短時間で精度スコアを算出することができる ・分割後のデータにばらつきや偏りが生じると、検証結果の信頼性が落ちる ・データが少ないときは要注意 |
---|---|
交差検証法 (k-分割交差検証法) (クロスバリデーション法) | ・ハイパーパラメータの調整と併用されることも多い精度検証方法 ・データをいくつかの部分に分割し、毎回異なる部分をテストデータにして、精度評価を複数回行う ・データ全体をK個のグループに分割→そのうち1個のグループをテストデータ&残りK-1個を訓練データとして学習と精度評価を行う→別グループをテストデータとし、訓練データと入れ替えて、再び学習と検証を行う ・全グループが一度テストデータになるまで繰り返し、結果を平均して精度とする ・データが少なめでも信頼できる結果が得られる ・計算にかかる時間はその分大きくなる |
精度評価の指標
精度評価の概要
- 「混同行列(Confusion Matrix)」を基準に考える
- 縦軸(正解クラス)、横軸(予測されたクラスのレベル)、セル内部(データ件数)
- 対角線上;真陰性(True Negative:TN)、耐陽性(True Positive:TP)
※対角線上の場所は、正しく予測されたデータ数
※対角線以外の場所は、誤識別されたデータ数
精度指標(スコア)
- Accuracy(正解率)
→正しく分類できたデータの割合
→(TP+TN)/(TP+TN+FP+FN) - Precision(適合率)
→陽性判定されたデータのうち、実際に陽性だったデータの割合
(偽陽性を避けたいときに注目する)
→TP/(TP+FP) - Recall(再現率)
→実際の陽性データのうち、陽性として検出されたデータの割合
(陽性を見落とするとリスクが高いときに注目する)
→TP/(TP/FN) - F-measure(F値)
→適合率と再現率の調和平均として使う
→(Precision×2×Recall)/(Precision+Recall)