[Day 13] DL Basic - CNN & Computer Vision Applications

📍 Convolutional Neural Network

- 연속형 변수, 이산형 변수, 2차원 이미지일 경우 아래와 같은 convolution 연산식으로 이루어 계산하게 된다.

- 2D image convolution을 이용해 이미지에 Blur, Emboss, Outline등 다양한 효과가 나오게 됨.

🔥 CNN

- Convolution Layer, Pooling Layer, Fully Connected Layer로 이루어져 있음.

- Conv. layer 과 Pooling Layer은 Feature extraction 역할을 한다.

- FC의 경우 decision making역할을 하지만, 최근에는 사용하지 않는 추세이다

WHY? FC로 넘어가면서 파라미터 수가 엄청나게 많아지게 되는데 그것을 줄이기 위함

- Stride: 필터를 씌울 때 건너뛰는 만큼을 나타냄

- Padding: 값을 덧데어주는 것 -> 이미지의 가장자리도 가져가기 위함.

- 예시) 다음 그림에서 Parameter 수?

-> 3X3X128 커널로 convolution하고 연산 결과의 channel수가 64이다.

-> 따라서, 3 X 3 X 128 X 64 = 73,728개의 파라미터가 있다.

- 1 X 1 convolution: Dimension reduction(채널 수 줄임(파라미터 수)), layer를 깊게 쌓으면서 parameter를 많이 줄임(Bottlenect architecture)

📍 Modern Convolutional Neural Networks

🔥 AlexNet(2012, Parameter = 60M)

- ILSVRC에서 수상하기 시작하면서 이후로 DL이 자리잡음

- 특징: Network가 2개로 나누어져 있음(GPU의 한계로 나누어 학습)

-> 11 X 11 필터 사용과 5개의 Conv Layer와 3개의 Dense layer(FC)

- Key idea: ReLU, Data augmetation, Dropout을 사용

-> Local Response Normalization(LRN), Overlapping pooling 사용

🔥 VGGNet(2014, parameter = 110M)

- 3 X 3 filter 사용했고 FC를 위해 1 X 1 filter를 사용해 파라미터 수 줄임

📌 왜 3X3을 사용하나요?

- Receptive field가 좋음 -> 3X3을 2개 사용하는 것은 5X5 하나 사용과 동일(Parameter 수가 작음)

- 이후로 필터의 크기가 7을 잘 넘어가지 않음

🔥 GoogLeNet(2015, parameter = 4M)

- 22 Layers를 가지고 있고 NiN(Network in Network)를 활용(Inception block)

- Inception block: 하나의 Input에 대해 Receptive field가 여러개로 나눠지고 그것을 concatenation하기에 좋은 성능

-> 1X1 filter가 존재해서 Parameter의 수가 줄어듬

📌 왜 1X1을 사용하면 Parameter의 수가 줄어드나요?

- 다른 필터를 통과시키기 전에 1X1 filter로 채널수를 줄여 줄 수 있고 이로 인한 parameter가 약 30%로 감소

🔥 ResNet(2015)

- Deeper NN일수록 학습이 어려움(Not Overfitting) -> 층이 쌓일수록 학습이 잘안되고 오히려 성능이 떨어짐

=> 그렇다면 Skip connection을 추가해보자! -> 학습을 더 잘 시킴

- Batch Norm을 Activation Function 앞에 사용되는 것이 특징

- Bottlenect architecture을 사용함. -> 갈수록 성능이 높아지고, parameter 수는 작아짐

🔥 DenseNet

- ResNet이 더해주는 연산을 했다면, DenseNet은 Concatenation을 해줌

-> 이렇게 되면 Channel수가 기하급수적으로 늘어남(Parameter수도 같이 늘어남)

=> 그럼, 중간에 한번씩 Channel수를 줄여주자!

- Dense Block + Transition Block을 합침

📍 Computer Vision Apllications(Semantic Segmentation and Detection)

🔥 Semantic Segmentation

- 어떤 이미지가 있을때 픽셀마다 분류를 하는 것(ex. 자율 주행에 사용 가능)

- Dense layer를 없애고 Fully Convolutional Network만듬 -> parameter상으로는 완전히 똑같음

** 그렇다면 왜 이렇게 하는 건가요?

-> 분류만 가능했던 모델이 segmentation이나 heatmap이 만들어질 수 있는 가능성이 생김

🔥 R-CNN

- region proposals -> compute feature -> Classification(SVM)

-> 이미지에서 뽑은 poroposals를 전부 CNN에 넣어 계산해야함(시간 ↑)

🔥 SPPNet

- 이미지 안에서 뽑은 Bounding Box의 tensor만 들고와 CNN에서 한번만 돌림

🔥 Fast R-CNN

- SPP와 거의 동일한 작동 방법을 가지나, 뒤단에 NN을 사용해 시간을 끌어올림

🔥 Faster R-CNN

- Region Proposal도 학습이 가능하게 만듬(RPN)

🔥 YOLO(You Only Look Once)

- Extremely fast Object detection algorithm

- 이미지를 딱 찍어서 탐지(Region proposal의 step이 없어 빠름)

- S x S x (B*5 + C)

'인공지능' 카테고리의 다른 글

[Day 15] DL Basic - Generative Model Ⅰ & Ⅱ (0)	2021.02.06
[Day 14] Math for AI - RNN (0)	2021.02.04
[Day 12] Math for AI - Convolution (0)	2021.02.02
[Day 12] DL Basic (0)	2021.02.02
[Day 11] DL Basic (0)	2021.02.02

Be Summa Cum Laude

[Day 13] DL Basic - CNN & Computer Vision Applications

📍 Convolutional Neural Network

📍 Modern Convolutional Neural Networks

📍 Computer Vision Apllications(Semantic Segmentation and Detection)

'인공지능' 카테고리의 다른 글

티스토리툴바

[Day 13] DL Basic - CNN & Computer Vision Applications

📍 Convolutional Neural Network

📍 Modern Convolutional Neural Networks

📍 Computer Vision Apllications(Semantic Segmentation and Detection)

'인공지능' 카테고리의 다른 글

'인공지능' Related Articles

티스토리툴바