複数分野の技術を組み合わせた「マルチモーダル技術」について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
マルチモーダル技術
- 「マルチモーダル技術」→複数タイプの入力情報を同時に利用する技術
- 「マルチモーダルAI」→マルチモーダル技術を活かしたAI
- 現在のAI→特定のタスクのみ担える「弱いAI」
→人間に近づけるためには、五感を経由して得られる複合的情報を活用する必要あり
→多面的な情報を組み合わせて処理する機能を実装する必要あり - 五感→5つのモダリティ(入力情報の種類)
- 「ニューラル画像脚注付け(Neural Image Captioning;NIC)」→与えられた画像に対し、写っている物体を説明する自然言語を生成する技術
- 画像を認識するネットワーク(CNNなど)と、文章を生成するネットワーク(RNN、Transformer)を同時に学習し、画像を自然言語で描写することを実現している
モデルの解釈性
概要
- 「解釈性」→なぜそのような予測・判断をしたのかを説明するもの
- 「ブラックボックス問題」の解消を目指す研究
LIME | モデル全体の傾向ではなく、特定のデータサンプルに着目し、単純モデルで近似することで予測に寄与する因子を推定する”局所的な説明ツール” |
---|---|
SHAP | |
Grad-CAM | 勾配情報を活用することで、ディープラーニングモデルそのものに判断根拠を持たせる |
LIME
- 「LIME(Local Interpretable Model-agnostic Explanations)」→特定の入力データに対する予測について、判断根拠を解釈・可視化する「局所的(ローカル)」なモデル解釈ツール
- 単純で解釈しやすい線形回帰モデルを用い、複雑なモデルを近似することで、解釈を行う
- モデル全体ではなく、1つの特定のサンプルに対する予測結果
SHAP
- 「SHAP(SHapley Additive exPlanations)」
- 2016年、LundbergとLeeにより発表
- 「局所的」なモデル解釈ツール
- 個別の予想結果に対し、各特徴量の寄与スコアや予測値との関係性を明らかにすることが目的
- 協力ゲーム理論における”Shapley値”を応用している
Grad-CAM
- 「Grad-CAM」→モデル全体に対する予測根拠を解明するための手法
※Grad→”Gradient”の略で、”勾配”の意味 - 主にCNNによる画像認識を対象
- 「画像のどこに着目してクラス分類しているのか」を可視化する
- ニューラルネットワークの学習に用いられる勾配の情報を可視化に使っている
- ”勾配が大きいピクセルは予測クラスの出力に大きく影響する重要な場所である”と判断し、ピクセルの重みを大きく設定
- 勾配→最後の畳み込み層の予測クラス出力値に対する勾配を採用
- CNNが分類のために注視していると推定される範囲を、「ヒートマップ」で表示
- 問題点→解釈過程の中で画像の解像度が下がってしまう
→改良版「Guided Grad-CAM」:分類モデルが着目している特徴量をさらに詳細に可視化してくれる