機械学習のモデルの精度評価の方法について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
過学習対策「ハイパーパラメータ」
概要
- 「パラメータ」→モデルの挙動に関する設定値や制限値
- 自動的に最適化されるパラメータ:ニューラルネットワークの重み、決定木の条件分岐の閾値
- 手動で設定するパラメータ:「ハイパーパラメータ」(学習前にユーザーが設定)
※ランダムフォレストの弱学習器の数、ニューラルネットワークの学習率、隠れ層の数など - 「ハイパーパラメータ」の役割→モデルの複雑さや学習の進行を制御する
- モデルの複雑さを軽減すると、過学習しにくくなる
- 過学習を軽減し、モデルの汎化性能を高めるために、ハイパーパラメータの値を調整(チューニング)する
チューニング(調整)
- 「訓練データ」と「テストデータ」に分割
→「訓練データ」からさらに、「バリデーションデータ(検証データ)」を取り出す - 「残り訓練データ」でモデルを再学習
→「バリデーションデータ」で精度を再度評価
→ハイパーパラメータを最適解に設定
→「テストデータ」で学習済みモデルの精度を評価 - 最も精度をもたらしてくれるハイパーパラメータの探索→「グリッドサーチ」
- 「グリッドサーチ」→学習モデルのハイパーパラメータの組合せを総当たりで試して、ベスト精度を実現する組合せを探索する方法
※探索に時間はかかるが、指定範囲内では最適解を見逃すことがない - 「ランダムサーチ」→ハイパーパラメータの「値の設定範囲」と「試行回数」とをあらかじめ指定し、指定範囲内から指定された試行回数分だけランダムに値の組合せを試して、ベスト精度の組合せを探索する方法
※精度は劣るが、探索に時間がかからない