AIの「機械学習」モデル、どのように評価をするのか。
目次
機械学習のデータをどのように取り扱うか
- 機械学習の手法については、何らかの方法で評価をする必要がある
- モデル評価は、「未知のデータに対しての予測能力」を見ることが適切であると考えられる
- データを分類し、擬似的に未知のデータを作り出し、テストすることになる
- 全データ→「学習用データ(訓練データ)」「評価用データ(テストデータ)」に分割→「交差検証」
- 交差検証
①「ホールドアウト検証」→事前にデータを訓練データとテストデータに分割する
②「k-分割交差検証」→データ分割を複数行い、それぞれで学習・評価を行う - 訓練データをさらに分割する方法→「訓練データ」「検証データ」と「テストデータ」
※検証データで一度モデル評価→調整→最終モデルを決定→テストデータで再度評価
評価のための指標
予測誤差
モデル評価→予測の”誤差”を評価する
※分類問題は当たり外れが明確になるが、回帰問題は評価が難しい
- 「平均二乗誤差(MSE)」→予測の誤差(差分)を二乗して総和を求めたもの
※二乗することで、正負の誤差が打ち消し合うことを防ぐことができる・微分計算がしやすく - 「二乗平均平方根誤差(RMSE)」→平均二乗誤差のルートを取ったもの
- 「平均絶対値誤差(MAE)」→絶対値を取ったもの
混同行列
実際\予測 | Positive | Negative |
---|---|---|
Positive | 真陽性 (TP:True Positive) | 偽陰性 (FN:False Negative) |
Negative | 偽陽性 (FP:False Positive) | 偽陰性 (TN:True Negative) |
主な指標
何を評価したいのかを明確にしたうえで、目的に沿った指標を選択する。
また、テストデータを用いて評価・比較を行う。
- 正解率(どれだけ予測があたったかの割合)
- 適合率(予測が正のなかで、実際に正だったものの割合)
- 再現率(実際に正のなかで、正だと予測できた割合)
- F値(適合率と再現率の調和割合)
正解率を高めることは重要だが、テストデータで正解率が低ければ問題で、訓練データに最適化されすぎている状態になっていることが考えられる(過学習、過剰適合)。
- ROC曲線(予測の当たり外れがどのように変化していくかを表した曲線)
- AUC(ROC曲線より下部の面積のこと)
モデルの選択、情報量
「オッカムの剃刀」:必要以上に多くを仮定するべきでないという指針
→モデルをどの程度複雑にすればよいか
→「情報量基準」
- 赤池情報量基準
- ベイズ情報量基準