DeepLeaning講座（第2回）を受けてきたよ - ありまっくすのへっぽこ日記

4/20にDeepLearning講座の2回目を受けてきました。

今回のテーマはCNN（Convolutional Neural Network）の基礎。

CNNってなに？で、何ができるの？

CNNは「畳み込みニューラルネットワーク」とも呼ばれる、ニューラルネットワークです。画像認識（下の図を参照）や画像生成（CNNだけではできないけど）によく使われます。

※ 実際にはCNNを発展させた、ResNetが使われます。

f:id:ari_max:20180423073332p:plain

Classification + Localizetion :分類。四角で囲んで「ここに猫がいますよ」と切り出す。
Semantic Segmentation:場所も正確に切り出す。
Object Detection:四角で囲む分類を複数できる。
Instance Segmentation:複数のものを区別してきりだす。（一番難しい）

なぜ、CNNをやるのかというと

画像系が多い（DeepLearningの大半は画像系）
ResNetは他の分野でも使える
畳み込みとプーリングを繰り返すアーキテクチャが優れている
処理を並列化しやすく、GPUとの相性がいい。(GPUは畳み込みを高速化するためのもの）
パラメータ拘束ができる（過学習をしにくくする）

といった理由があるそうです。

CNNの構成

CNNは以下のように畳み込みとプーリングを繰り返し、最後に全結合を行って出力します。

畳み込み (Convolution)
プーリング (Pooling)
全結合層(Fully Connected Layer ,Dense)

図解したものが以下。畳み込みとプーリングは繰り返して、最後に全結合します。

f:id:ari_max:20180429101815p:plain — http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf

畳み込み

CNNでは一番重要な処理です。とはいえ、やっていることは「掛け算して、全部足す」という内積の計算だけです。

下の図のようにInputにFilterを重ね合わせます。（緑で囲んだ場所）そして、重なったマス同士を掛け算して足したものを出力します。

f:id:ari_max:20180428125816p:plain

FilterとInputが重なり合った場所を計算すると以下の図のようになり、足し合わせると4となります。

1 + 0 + 0 + 0 + 1 + 0 + 1 + 0 + 1 = 4

f:id:ari_max:20180428125349p:plain

上の計算をFilterをずらしながら繰り返していきます。ずらす幅を「ストライド」といい、ストライドを大きくすると出力も小さくなります。（普通は1のことが多い）

f:id:ari_max:20180428130116p:plain

フィルタによって検出するものも変わります。（下の図参照）つまり、フィルタをどうするかというのがCNNのキモなのです。フィルタはかつて人間が考えていたのですが、現在はバックプロパゲーションが最適なフィルタを作ってくれます。

f:id:ari_max:20180429015254p:plain

色を検出する場合、RGBで表現するためR・G・Bそれぞれの入力データがあります。フィルタもR・G・Bそれぞれで作成し、フィルタを重ね合わせて畳み込みを行います。重ね合わせたフィルタの数をチャネル数といい、入力とフィルタのチャネル数は合わせておく必要があります。畳み込みを行うとチャネル数は1になります。

f:id:ari_max:20180429084918p:plain