深層強化学習(ディープラーニング+強化学習)⑦

ディープラーニングのモデルにおいて、複数形式のデータを同時に扱う方法、ブラックボックスと呼ばれている問題をどのように解決するのか、という点について。

目次

マルチモーダル

  • 「Image Captioning」→画像データを入力すると、その内容を要約したテキストを出力する
  • 「Text-To-Image」→テキストを入力すると、それに基づく画像を出力する
  • 「CLIP」→”画像から抽出する特徴”と”テキストから抽出する特徴”が同じになるよう、大量のデータで学習
  • CLIPで特徴を抽出し、物体認識・物体検出・Visual Question Answeringなどに利用できる
  • 「DALL-E」→CLIPとDiffusion Modelを用い、テキストから、画像の高品質に生成できる
  • CLIPは、Zero-shot学習が可能(学習していない新たなタスクにも実行可能)
    テキストと画像の広範な関連性を捉える能力に起因している
  • 「Flamingo」「Unified-IO」→CLIP以降、画像とテキストの関連性を捉える特徴を抽出できるモデル
    「基盤モデル」

モデルの解釈

説明可能AI(Explanable AI)

  • 「説明可能AI(Explanable AI)」モデルがどのように予測しているか、判断根拠を解釈し説明可能にする試み
  • 「LIME」→入力データの特徴の一部だけを与え、その時の振る舞いを線形モデルに近似する
  • 「Permutation Importance」→入力データの特徴をランダムに入れ、振る舞いの変化をもとに、特徴の寄与度を測る
  • 「SHAP」→特徴量の寄与度を測り、モデルの解釈を行う
  • 計算コストが高かったり、特徴間の相関が高かったりすると、寄与度を測ることが難しい

CAM(Class Activation Mapping)

  • 「CAM(Class Activation Mapping)」→”画像のどこを見ているか”を可視化し、画像認識タスクに用いる予測判断根拠を示そうとする
    →「Global Average Pooling(GAP)」を最終層の手前に用いたネットワーク構造をしている
  • GAP:各チャネルの特徴マップの平均値を求める
    最終層:その値に重みをかけて各出力値を求める
  • 可視化したいクラスに対応する重みをGAP前の特徴マップに乗算し、すべての特徴マップを足して、1つのヒートマップにする
    →ヒートマップの中で大きな値の部分が判断根拠となる

Grad-CAM

  • 「Grad-CAM」→勾配情報を用いて、指定した層における判断根拠を可視化
    (勾配が大きい(=出力値への影響が大きい)ピクセルが重要だと判断し、重み付けをする)
  • ただし、そのプロセスで画像が低解像度になる
    →入力値の勾配情報をも用いた「Guided Grad-CAM」という手法

この記事が気に入ったら
いいね または フォローしてね!

  • URLをコピーしました!
目次