ディープラーニングの画像認識分野における応用②

ディープラーニングは、画像認識分野でどのように活用されているか。

目次

物体認識タスク

  • 入力された画像に対し、その画像に映る物体の名称を出力するタスク
  • 識別対象としている物体クラスすべての対する確信度を出力し、その確信度が最も高い物体クラスを識別結果として出力する
  • ILSVRC(画像認識の精度を競うコンペティション)において、2012年、「AlexNet」が、ディープラーニングに基づくモデルを出して優勝した
  • AlexNet:畳み込み層→プーリング層→畳み込み層→プーリング層→畳み込み層→畳み込み層→畳み込み層→プーリング層→全結合層(3層)
  • AlexNet以降、畳み込み層とプーリング層の繰り返しをさらに増やした、より深いネットワークモデルが続々と登場
  • 「VGG」:”畳み込み層→畳み込み層→プーリング層”の塊を繰り返し、16層まで積層したもの。
    各畳み込み層のフィルタサイズを3×3に統一、プーリングを行った次の畳み込み層からフィルタ数を2倍に増やすというシンプルな基本設計を採用。
    深くなっても学習できるよういったん少ない層で学習し、途中に畳み込み層を追加して深くする学習方法を採用。
  • 「GoogLeNet」:2014年優勝。層を深くするだけでなく、同時に異なるフィルタサイズの畳み込み処理を行う「Incetptionモジュール」を導入(深いネットワークにしつつ、着目する範囲が異なる特徴をあわせて捉えることができる)。
  • 「ResNet」:2015年優勝。超深層のモデル。派生モデルとして、「WideResNet(フィルタ層を増やす)」「DenseNet(スキップ結合を工夫)」。
  • 「Squeeze-and-Excitation Networks(SENet)」:2017年優勝。畳み込み層が出力した特徴マップに重ね付けするAttention機構を導入したモデル。
    Attention機構は、VGGやResNetなど様々なモデルに導入できる汎用的なアイデア。以降の研究で様々なところで応用されている。
  • 「MobileNet」:モバイル端末などメモリ量が限られている環境でも利用できるよう、畳み込み層にDepthwise Separable Convolutionを用いてパラメータ数を削減。
  • 「Natural Architecture Search(NAS)」:リカレントニューラルネットワークと深層強化学習を用い、ネットワーク構造を探索している。
    NASNet(生成する単位をResNetのResidual Blockのような塊にする工夫)」「MnasNet(モバイル端末での計算量も考慮する工夫)」
  • 「EfficientNet」:単に高精度なだけではなく転移学習に有用なモデルとして、様々なコンペティションに活用されている。

物体検出タスク

  • 入力画像に映る物体クラスの認識と、その物体の位置を特定するタスク
  • 大まかな物体の位置を特定した後、その物体クラスを識別する2段階モデルと、位置の特定とクラスの識別を同時に行う1段階モデルがある。
    R-CNN」「Fast R-CNN」「Faster R-CNN」「FPN(2段階モデル)
    YORO」「SSD(デフォルトボックスのパターンを複数用意)」(1段階モデル)

この記事が気に入ったら
いいね または フォローしてね!

  • URLをコピーしました!
目次