物体を背景から切り出してクラス認識を行う「一般物体認識」について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
物体検出の手法
Regional CNN(R-CNN)
- 「R-CNN(Regional CNN)」→物体検出モデルの原型
- 画像内の物体の候補領域を特定→画像認識のための特徴量を抽出→物体のクラスを推定
- 入力:画像データ
- 出力:画像内の各物体の領域を示すボックス、クラスラベル
- 「物体候補領域検出(Region Proposal)」→物体が存在しそうな領域を洗い出す課題
- 「Selective Search」(アルゴリズム)→色や強度などが類似している隣接ピクセルをグルーピングし、複数のセグメントに分割する→CNNで特徴を抽出→SVMでクラス分類
- 物体が存在すると思われる領域を検出する
→「バウンディングボックス」で切り出し、画像粒度でグルーピングする - 画像を整形する
→すべてのボックスを同じ寸法にリサイズする - 特徴量を算出する
→領域ごとに個別に「CNN」を呼び出し、特徴量を抽出する - 特徴量を学習する
→CNNで求めた特徴量を「SVM」で学習する - 画像認識を行う
→クラス認識モデルを構築する
※未知の画像が入力されたら、学習時と同様、CNNで求めた特徴量をもとに学習済みSVMで分類
高速R-CNN(Fast R-CNN、Faster R-CNN)
- R-CNNで使われるCNNは、特徴量抽出の精度は高いが、計算コストが高い
- 処理が重たく時間がかかる
(従来のR-CNNは、多数の物体候補領域の”それぞれ”にCNNを呼び出し、複雑なタスクを行うため) - 「高速R-CNN(Fast R-CNN)」→R-CNNの改良版
- ”全体に対して1回のみ”CNNを適用、CNNで得られた特徴マップを入力し、物体認識を行う
→計算量を減らせ、高速化を実現 - Region Proposalの計算に「Selective Search」を採用→追加ス時間が多い
- 「Faster R-CNN」→関心領域の切り出しと物体認識を同時に行う方法
- リアルタイムの物体検出が実現可能となり、Faster R-CNNを動画に応用できるようになる
その他のモデル
- ”物体領域の切り出しと物体認識を同時に行う”高速版モデル
- 「YOLO(You Only Look Once)」→2016年に開発
- 「SSD(Single Shot Detector)」→2016年に開発
- アルゴリズムは1つのCNNで完結し、領域推定と分類を同時に行う
→処理が高速