AIの「機械学習」モデルをどのように評価するのか

AIの「機械学習」モデル、どのように評価をするのか。

目次

機械学習のデータをどのように取り扱うか

  • 機械学習の手法については、何らかの方法で評価をする必要がある
  • モデル評価は、「未知のデータに対しての予測能力」を見ることが適切であると考えられる
  • データを分類し、擬似的に未知のデータを作り出し、テストすることになる
  • 全データ→「学習用データ(訓練データ)」「評価用データ(テストデータ)」に分割→「交差検証
  • 交差検証
    「ホールドアウト検証」→事前にデータを訓練データとテストデータに分割する
    「k-分割交差検証」→データ分割を複数行い、それぞれで学習・評価を行う
  • 訓練データをさらに分割する方法→「訓練データ」「検証データ」と「テストデータ
    ※検証データで一度モデル評価→調整→最終モデルを決定→テストデータで再度評価

評価のための指標

予測誤差

モデル評価→予測の”誤差”を評価する
※分類問題は当たり外れが明確になるが、回帰問題は評価が難しい

  • 「平均二乗誤差(MSE)」→予測の誤差(差分)を二乗して総和を求めたもの
    ※二乗することで、正負の誤差が打ち消し合うことを防ぐことができる・微分計算がしやすく
  • 「二乗平均平方根誤差(RMSE)」→平均二乗誤差のルートを取ったもの
  • 「平均絶対値誤差(MAE)」→絶対値を取ったもの

混同行列

実際\予測PositiveNegative
Positive真陽性
(TP:True Positive)
偽陰性
(FN:False Negative)
Negative偽陽性
(FP:False Positive)
偽陰性
(TN:True Negative)

主な指標

何を評価したいのかを明確にしたうえで、目的に沿った指標を選択する。
また、テストデータを用いて評価・比較を行う。

  • 正解率(どれだけ予測があたったかの割合)
  • 適合率(予測が正のなかで、実際に正だったものの割合)
  • 再現率(実際に正のなかで、正だと予測できた割合)
  • F値(適合率と再現率の調和割合)

正解率を高めることは重要だが、テストデータで正解率が低ければ問題で、訓練データに最適化されすぎている状態になっていることが考えられる(過学習過剰適合)。

  • ROC曲線(予測の当たり外れがどのように変化していくかを表した曲線)
  • AUC(ROC曲線より下部の面積のこと)

モデルの選択、情報量

「オッカムの剃刀」:必要以上に多くを仮定するべきでないという指針
→モデルをどの程度複雑にすればよいか
「情報量基準」

  1. 赤池情報量基準
  2. ベイズ情報量基準

この記事が気に入ったら
いいね または フォローしてね!

  • URLをコピーしました!
目次