Paper Review(논문 리뷰)/Computer Vision

[논문 리뷰] [CV] VERY DEEP CONVOLUTIONAL NETWORKSFOR LARGE-SCALE IMAGE RECOGNITION

23학번이수현 2025. 3. 17. 16:25

0. Reference

https://arxiv.org/abs/1409.1556

 

Very Deep Convolutional Networks for Large-Scale Image Recognition

In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3x

arxiv.org

1. Introduction

- 본 논문에선 ConvNet 설계에서 Network의 Depth에 주목 하였다.

- 모든 ConV Layer의 filter size를 3x3로 고정하여 Network의 Depth를 증가시켜 연구를 진행하였다.

- 예를 들면 7x7 filter 대신 3x3 filter 3개로 변환하는등의 작업이라고 생각하면 된다.

 

2. ConVNet Configurations

- 해당 연구에서 ConvNet의 depth가 가져오는 성능 향상을 fair하게 측정하기위해,

- 모든 ConvNet 구성을 동일한 원칙에 따라 설계하였다고 한다.

2.1) 일반적인 ConvNet 구조 설명

2.2) 구체적인 ConvNet 구조 설명

2.3) 설계 선택과 기존 연구와의 비교

 

2.1. Architecture

- input data size : 224 x 224 RGB이다.

- 사용된 Pre-processing은 training dataset의 평균 RGB값을 각 픽셀에서 빼는 것이 전부다.

 

- Convolutional Layers입장에서 매우 작은 receptive field를 사용한다.

- 기본적으로 3x3 filter를 사용하며, 최소한의 space information을 포착한다.

- 일부 구성에서는 1x1 filter를 사용하여 channel 간 linear transformation을 수행한다.

- stride는 1로 고정되어있고, padding은 입력 이미지의 해상도를 유지하기 위해 적용된다.

 

- Pooling Layers입장에서 Max-Pooling을 사용하고, 2x2 window를 사용하여, stride는 2로 설정하여

- non-overlapping pooling을 사용하였다.

 

- Fully-Connected Layer입장에서 3개의 layer를 사용하게 된다.

- 4096 -> 4096 -> 1000(softmax layer)

 

- 모든 hidden layer에선 activation function으로 ReLU를 사용한다.

 

- 본 저자가 LRN(Local Response Normalization)을 사용하여 연구를 진행했더니,

- LRN은 효과가 전혀 없고, 메모리 소모와 계산시간만 증가시켰다고 한다.

 

2.2. Configurations

 

2.3. Discussion

- 왜 사이즈가 큰 필터 대신 3x3 필터 여러 개를 쌓는 방식을 선택한 이유는 무엇일까?

- ex) 7x7 필터는 3x3필터를 3개를 연속으로 사용한것과 동일한 receptive filed를 갖는다.

- 3개를 연속으로 사용하기 때문에 ReLU를 3번 적용하게 되어 non-linearity가 증가하게 된다.

- 뿐만 아니라, 학습되는 parameter의 개수도 감소하게 된다.

ex) 7 x 7 filter 1개 : 7 x 7 x C^2 = 49C^2

       3 x 3 filter 3개 : 3x3x3xC^2 = 27C^2

- 이는 곧, 동일한 효과를 보이면서 Overfitting을 억제시켜주는 역할을 하게 된다.

 

- 추가적으로 non-linearity를 증가시키기 위해 1 x 1 Convolution layer을 적용하였다.

- 이는 곧 각 픽셀마다 ReLU를 적용하기 때문이라고 볼 수 있다.