ディープラーニングは、画像認識分野でどのように活用されているか。
目次
画像データとCNN(畳み込みニューラルネットワーク)
- 画像データ→「RGB画像」(赤、緑、青)→縦・横・奥行き(チャネル)の3次元
- 「CNN(畳み込みニューラルネットワーク)」が使われる
- 画像は縦横の位置関係が重要な意味を持つため、CNNのような畳み込み層・プーリング層を利用し、2次元のまま入力として扱う方が適している
- 通常のニューラルネットワークでは、縦横の位置関係を一列の分解してしまうため、関係が失われる
ネオコグニトロン、LeNet
- 「ネオコグニトロン」→以下2つの細胞の働きを最初に組み込んだモデル(学習方法:add-if silent)
①単純型細胞(S細胞):画像の濃淡の特徴を検出する
②複雑型細胞(C細胞):特徴の位置が変動しても同じ特徴とみなす - 「LeNet」→以下2つを複数組み合わせた構造(学習方法:誤差逆伝播法)
①畳み込み層
②プーリング層(サブサンプリング層)
データ拡張
- 手元にあるデータから擬似的に別のデータを生成するアプローチ
- データの”水増し”
- 学習に必須の処理
具体的な処理方法
- 上下左右にずらす
- 上下左右を反転する
- 拡大縮小する
- 回転する
- 斜めにする
- 一部を切り取る
- 明るさやコントラストを変える
- ノイズを加える
- paraphrhrasing(一部を別の値に入れ替える)
- Cutout、Random Erasing(データの一部分を0またはランダムにする)
- Mixup(2つのデータを合成する)
- CutMix(CutoutとMixupの組み合わせ)
- RandAugment(どのようなデータ拡張をどのくらいの強さで行えばよいか)