ディープラーニングのモデルにおいて、複数形式のデータを同時に扱う方法、ブラックボックスと呼ばれている問題をどのように解決するのか、という点について。
目次
マルチモーダル
- 「Image Captioning」→画像データを入力すると、その内容を要約したテキストを出力する
- 「Text-To-Image」→テキストを入力すると、それに基づく画像を出力する
- 「CLIP」→”画像から抽出する特徴”と”テキストから抽出する特徴”が同じになるよう、大量のデータで学習
- CLIPで特徴を抽出し、物体認識・物体検出・Visual Question Answeringなどに利用できる
- 「DALL-E」→CLIPとDiffusion Modelを用い、テキストから、画像の高品質に生成できる
- CLIPは、Zero-shot学習が可能(学習していない新たなタスクにも実行可能)
→テキストと画像の広範な関連性を捉える能力に起因している - 「Flamingo」・「Unified-IO」→CLIP以降、画像とテキストの関連性を捉える特徴を抽出できるモデル
→「基盤モデル」
モデルの解釈
説明可能AI(Explanable AI)
- 「説明可能AI(Explanable AI)」→モデルがどのように予測しているか、判断根拠を解釈し説明可能にする試み
- 「LIME」→入力データの特徴の一部だけを与え、その時の振る舞いを線形モデルに近似する
- 「Permutation Importance」→入力データの特徴をランダムに入れ、振る舞いの変化をもとに、特徴の寄与度を測る
- 「SHAP」→特徴量の寄与度を測り、モデルの解釈を行う
- 計算コストが高かったり、特徴間の相関が高かったりすると、寄与度を測ることが難しい
CAM(Class Activation Mapping)
- 「CAM(Class Activation Mapping)」→”画像のどこを見ているか”を可視化し、画像認識タスクに用いる予測判断根拠を示そうとする
→「Global Average Pooling(GAP)」を最終層の手前に用いたネットワーク構造をしている - GAP:各チャネルの特徴マップの平均値を求める
最終層:その値に重みをかけて各出力値を求める - 可視化したいクラスに対応する重みをGAP前の特徴マップに乗算し、すべての特徴マップを足して、1つのヒートマップにする
→ヒートマップの中で大きな値の部分が判断根拠となる
Grad-CAM
- 「Grad-CAM」→勾配情報を用いて、指定した層における判断根拠を可視化
(勾配が大きい(=出力値への影響が大きい)ピクセルが重要だと判断し、重み付けをする) - ただし、そのプロセスで画像が低解像度になる
→入力値の勾配情報をも用いた「Guided Grad-CAM」という手法