[논문 리뷰] [CV] Going deeper with convolutions

Going Deeper with Convolutions

We propose a deep convolutional neural network architecture codenamed "Inception", which was responsible for setting the new state of the art for classification and detection in the ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC 2014). The

arxiv.org

1. Introduction

- 본 논문에선 Image Classification에서 Deep Learning이 발전한 이유는,

- 하드웨어의 발전, 대규모 데이터셋, 더 큰 모델가 이유라곤 하지만 더 큰 이유는,

- 새로운 아이디어, 개선된 알고리즘, 발전된 Network Architecture가 핵심이라고 한다.

- 본 논문에서의 주된 아이디어는 "Inception"이라는 Network Architecture이다.

- Inception이라는 이름은 NIN("Network In Network")라는 논문과

- 인터넷 밈중 하나인 "We need to go deeper"에서 영감을 얻었다고 한다.

- 기존의 CNN과는 다르게 Inception을 도입하여, Network의 Depth를 논리적으로 증가시켰다.

2. Related Work

- GoogLeNet은 기본적으로 LeNet5의 구조를 유사하게 들고가면서, Inception 구조를 이용하여 depth를 증가시켰다고 볼 수있다.

- 뿐만 아니라, Network In Network에서 1 x 1 ConVLayer를 활용하여, Depth뿐 아니라, width도 넓힐 수 있었다고 한다.

3. Motivation and High Level Considerations

- DNN의 성능을 높이는 가장 단순하면서 정확한 방법은 크기를 키우는 것이라고 한다.

- 이는 network의 Depth와 width(유닛의 개수)를 키우는 것을 의미하는데,

- 두 가지 단점이 존재한다.

i) parameter가 증가하기에 Overfitting에 취약함

ii) 해상도가 크면 클수록 더 큰 계산비용을 야기하게 된다.

- 해당 문제를 해결하기 위해선, Fully Connected된 부분을 Sparse하게 연결하는 것이고,

- 이를 ConVL에서도 적용하면 된다고 주장한다.

- 이렇게 Sparse하게 연결하면 생기는 장점은 "같이 잘맞는 뉴런은 서로 연결되어있다."라는 Hebbian priciple과 유사하기 때문이다.

- 즉, 어떤 task에 대해 장점을 보이는 뉴런의 weight는 증가시키고, 아닌 애들은 감소시키는 역할을 할 수 있다는 것이다.

- 하지만, Sparse한 구조를 다룰 땐 계산비용이 Dense할때보다 더 많이 소요된다고 한다.

- 그럼에도 불구하고, Sparse matrix를 operation한 문헌들이 많이 나오게 되었는데,

- Sparse matrix를 clustering하여 Dense한 Submatrix를 만드는 연구에서 좋은 성능을 보였다고 한다.

- 그래서 해당 구조를 시험하기 위해, Inception이라는 구조가 나오게 되었다.

4. Architecture Details

- Inception의 주요 아이디어는 CNN에서 Optimal한 local Sparse structure를

- 어떻게 즉시 사용 가능한 dense component로 근사하고 구성할 수 있는지를 찾는 것이다.

- 우선 dense component로 근사시키기 위해서, local sparse structure를 반복적으로 추출하고,

- 이러한 feature last-layer에서 correlation을 분석하여 상관도가 높은 unit을 cluster로 그룹화하여,

- dense하게 근사시킬수 있게 된다.

- local sparse structure를 반복적으로 추출한다는 것에 대한 의미를 좀 더 자세히 알아보자.

- 왼쪽 쥐 같은 경우, 3x3이나 5x5이나 추출되는 feature는 유사하지만,

- 오른쪽 쥐 같은 경우, 3x3과 5x5가 추출하는 feature가 달라지게 된다.

--> 5x5가 더 feature를 잘 추출하게 된다.

- 그 이유는, 귀라는 feature의 크기가 단순히 크기때문에 3x3으론 feature를 추출을 못하기 때문이다.

- 이렇듯 다양한 필터 사이즈를 가지고 여러가지 feature map을 뽑아내(Sparse structure)

cf)

:: 1x1 conv:: 작은 feature

:: 3x3 conv:: 중간 feature

:: 5x5 conv:: 큰 feature

:: max pooling:: 중요한정보요약

- 다음과 같이 Dense하게 이어줘 correlation을 찾아주는 식이다.

(b)에서 1x1 convolutions을 사용하여 Channel개수를 줄여 계산비용을 줄여줄 수 있다.

- 그로 인해, Channel 수를 줄였기 때문에, ConV에서의 filter 수 역시 줄어들게 되기 때문에 계산을 확 줄일수 있다.

- ReLU도 적용이 되기에, non-linearity도 더해주는 역할을 하게 된다.

- 이러한 inception구조는 낮은 층에서는 복잡한 구조를 필요로 하지 않으니, tranditional ConV로 진행되고,

- 깊어짐에 따라 inception을 적용하는 구조라고 생각하면 좋다.

- Filter Concatenation되는 부분들은 각각의 필터들을 통과해서 나오게된 feature map을 동일하게 만들어 concat하게 된다.

- 동일하게 만드는 과정은, 각기 다른 stride나 padding을 적용하여 이루어 진다.

5. GoogLeNet

- 마지막 FC-layer와 연결하기 위해서 GAP(Gloval average pooling)을 사용하였다.

'Paper Review(논문 리뷰) > Computer Vision' 카테고리의 다른 글

[논문 리뷰] [CV] Deep Residual Learning for Image Recognition (0)	2025.03.21
[논문 리뷰] [CV] Rethinking the Inception Architecture for Computer Vision (0)	2025.03.19
[논문 리뷰] [CV] VERY DEEP CONVOLUTIONAL NETWORKSFOR LARGE-SCALE IMAGE RECOGNITION (0)	2025.03.17
[논문 리뷰] [CV] Network In Network (0)	2025.03.17
[논문 리뷰] [CV] Visualizing and Understanding Convolutional Networks (1)	2025.03.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[논문 리뷰] [CV] Going deeper with convolutions

0. Reference

1. Introduction

2. Related Work

3. Motivation and High Level Considerations

4. Architecture Details

5. GoogLeNet

'Paper Review(논문 리뷰) > Computer Vision' 카테고리의 다른 글

0. Reference

1. Introduction

2. Related Work

3. Motivation and High Level Considerations

4. Architecture Details

5. GoogLeNet

'Paper Review(논문 리뷰) > Computer Vision' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역