ディープラーニングの画像認識分野における応用①

ディープラーニングは、画像認識分野でどのように活用されているか。

目次

画像データとCNN(畳み込みニューラルネットワーク)

  • 画像データ→「RGB画像」(赤、緑、青)→縦・横・奥行き(チャネル)の3次元
  • 「CNN(畳み込みニューラルネットワーク)」が使われる
  • 画像は縦横の位置関係が重要な意味を持つため、CNNのような畳み込み層・プーリング層を利用し、2次元のまま入力として扱う方が適している
  • 通常のニューラルネットワークでは、縦横の位置関係を一列の分解してしまうため、関係が失われる

ネオコグニトロン、LeNet

  • 「ネオコグニトロン」→以下2つの細胞の働きを最初に組み込んだモデル(学習方法:add-if silent)
    ①単純型細胞(S細胞):画像の濃淡の特徴を検出する
    ②複雑型細胞(C細胞):特徴の位置が変動しても同じ特徴とみなす
  • 「LeNet」→以下2つを複数組み合わせた構造(学習方法:誤差逆伝播法)
    ①畳み込み層
    ②プーリング層(サブサンプリング層)

データ拡張

  • 手元にあるデータから擬似的に別のデータを生成するアプローチ
  • データの”水増し”
  • 学習に必須の処理

具体的な処理方法

  • 上下左右にずらす
  • 上下左右を反転する
  • 拡大縮小する
  • 回転する
  • 斜めにする
  • 一部を切り取る
  • 明るさやコントラストを変える
  • ノイズを加える
  • paraphrhrasing(一部を別の値に入れ替える)
  • Cutout、Random Erasing(データの一部分を0またはランダムにする)
  • Mixup(2つのデータを合成する)
  • CutMix(CutoutとMixupの組み合わせ)
  • RandAugment(どのようなデータ拡張をどのくらいの強さで行えばよいか)

この記事が気に入ったら
いいね または フォローしてね!

  • URLをコピーしました!
目次