メニュー

長崎・佐賀/クラウド会計専門の税理士・キャッシュフローコーチ | 酒井寛志税理士事務所

酒井寛志税理士事務所

深層強化学習（ディープラーニング+強化学習）⑦

2025年2月21日

ディープラーニングのモデルにおいて、複数形式のデータを同時に扱う方法、ブラックボックスと呼ばれている問題をどのように解決するのか、という点について。

目次

マルチモーダル

「Image Captioning」→画像データを入力すると、その内容を要約したテキストを出力する
「Text-To-Image」→テキストを入力すると、それに基づく画像を出力する
「CLIP」→”画像から抽出する特徴”と”テキストから抽出する特徴”が同じになるよう、大量のデータで学習
CLIPで特徴を抽出し、物体認識・物体検出・Visual Question Answeringなどに利用できる
「DALL-E」→CLIPとDiffusion Modelを用い、テキストから、画像の高品質に生成できる
CLIPは、Zero-shot学習が可能（学習していない新たなタスクにも実行可能）
→テキストと画像の広範な関連性を捉える能力に起因している
「Flamingo」・「Unified-IO」→CLIP以降、画像とテキストの関連性を捉える特徴を抽出できるモデル
→「基盤モデル」

モデルの解釈

説明可能AI（Explanable AI）

「説明可能AI（Explanable AI）」→モデルがどのように予測しているか、判断根拠を解釈し説明可能にする試み
「LIME」→入力データの特徴の一部だけを与え、その時の振る舞いを線形モデルに近似する
「Permutation Importance」→入力データの特徴をランダムに入れ、振る舞いの変化をもとに、特徴の寄与度を測る
「SHAP」→特徴量の寄与度を測り、モデルの解釈を行う
計算コストが高かったり、特徴間の相関が高かったりすると、寄与度を測ることが難しい

CAM（Class Activation Mapping）

「CAM（Class Activation Mapping）」→”画像のどこを見ているか”を可視化し、画像認識タスクに用いる予測判断根拠を示そうとする
→「Global Average Pooling（GAP）」を最終層の手前に用いたネットワーク構造をしている
GAP：各チャネルの特徴マップの平均値を求める
最終層：その値に重みをかけて各出力値を求める
可視化したいクラスに対応する重みをGAP前の特徴マップに乗算し、すべての特徴マップを足して、1つのヒートマップにする
→ヒートマップの中で大きな値の部分が判断根拠となる

Grad-CAM

「Grad-CAM」→勾配情報を用いて、指定した層における判断根拠を可視化
（勾配が大きい（＝出力値への影響が大きい）ピクセルが重要だと判断し、重み付けをする）
ただし、そのプロセスで画像が低解像度になる
→入力値の勾配情報をも用いた「Guided Grad-CAM」という手法

この記事が気に入ったら
いいねまたはフォローしてね！

Follow @wideworld16 Follow Me

URLをコピーしました！