ディープラーニングの基本・応用⑧

2025年4月9日

CNN（畳み込みニューラルネットワーク）について。

AI・ディープラーニングの全体像

画像認識コンペ「ILSVRC（ImageNet Large Scale Visual Recognition Challenge）」
画像に映る「クラス（ラベル）」を正しく予想するために競争し、「誤差率」の低さを競う
2012年、トロント大学のヒントン教授のチームが開発した「AlexNet」が勝利
※前年の誤差率を10％以上改善→第3次AIブームの火付け役に
2015年、「ResNet」が誤差率5％よりも低い値に
ILSVRC→大規模オープンデータベース「ImageNet」からの画像データを用いる
画像に写る物体に「ラベル（クラス名）」が付与される
ImageNetの画像データのボリューム→クラスの種類2万以上、画像数は1400万枚以上
「WorldNet」→概念辞書を参照し、上記語・下位語の概念を取り入れている
「MNIST」→手書き文字（0-9）（クラス数10個、データ数数万枚ほど）
「Fashion MNIST」→グレースケール画像（クラス数10個、データ数数万枚ほど）
「CIFAR-10」→カラー画像（クラス数10個、データ数数万枚ほど）

CNNのレイヤー：「畳み込み層」→「プーリング層」→「全結合層」

役割→「入力画像から特徴を抽出すること」
画像に「フィルタ（カーネル）」という小さな画像をかける→「畳み込み演算」
画像認識に必要な特徴表現を含む「特徴マップ」が、新しい画像データとして生成される
特徴マップが次の層への入力データとして渡され、より高度な特徴量を抽出するための材料として使われる
フィルタの画素値は抽出したい特徴に合わせて設定され、経験則に基づいた目的別のフィルタが使われる
「パディング」→画像の縮小を防ぎたい場合に、画像の周りを事前に0値で埋める
→画像の端にある特徴を抽出しやすくなる利点もある
CNNでは、CNN以外と異なり、領域ごとにフィルタを小刻みにずらして（ストライド）特徴量抽出を行う
→隣接する特徴の相関と、空間的な情報を維持できる