[논문 리뷰] [CV] Going deeper with convolutions

2025. 3. 18. 02:44· Paper Review(논문 리뷰)/Computer Vision
목차
  1. 0. Reference
  2.  
  3. 1. Introduction
  4. 2. Related Work
  5. 3. Motivation and High Level Considerations
  6. 4. Architecture Details
  7. 5. GoogLeNet

0. Reference

https://arxiv.org/abs/1409.4842

https://phil-baek.tistory.com/entry/3-GoogLeNet-Going-deeper-with-convolutions-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0

 

Going Deeper with Convolutions

We propose a deep convolutional neural network architecture codenamed "Inception", which was responsible for setting the new state of the art for classification and detection in the ImageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC 2014). The

arxiv.org

 

1. Introduction

- 본 논문에선 Image Classification에서 Deep Learning이 발전한 이유는,

- 하드웨어의 발전, 대규모 데이터셋, 더 큰 모델가 이유라곤 하지만 더 큰 이유는,

- 새로운 아이디어, 개선된 알고리즘, 발전된 Network Architecture가 핵심이라고 한다.

 

- 본 논문에서의 주된 아이디어는 "Inception"이라는 Network Architecture이다.

- Inception이라는 이름은 NIN("Network In Network")라는 논문과

- 인터넷 밈중 하나인 "We need to go deeper"에서 영감을 얻었다고 한다. 

- 기존의 CNN과는 다르게 Inception을 도입하여, Network의 Depth를 논리적으로 증가시켰다.

 

2. Related Work

- GoogLeNet은 기본적으로 LeNet5의 구조를 유사하게 들고가면서, Inception 구조를 이용하여 depth를 증가시켰다고 볼 수있다.

- 뿐만 아니라, Network In Network에서 1 x 1 ConVLayer를 활용하여, Depth뿐 아니라, width도 넓힐 수 있었다고 한다.

 

3. Motivation and High Level Considerations

- DNN의 성능을 높이는 가장 단순하면서 정확한 방법은 크기를 키우는 것이라고 한다.

- 이는 network의 Depth와 width(유닛의 개수)를 키우는 것을 의미하는데, 

- 두 가지 단점이 존재한다.

i) parameter가 증가하기에 Overfitting에 취약함

ii) 해상도가 크면 클수록 더 큰 계산비용을 야기하게 된다.

 

- 해당 문제를 해결하기 위해선, Fully Connected된 부분을 Sparse하게 연결하는 것이고,

- 이를 ConVL에서도 적용하면 된다고 주장한다.

- 이렇게 Sparse하게 연결하면 생기는 장점은 "같이 잘맞는 뉴런은 서로 연결되어있다."라는 Hebbian priciple과 유사하기 때문이다.

- 즉, 어떤 task에 대해 장점을 보이는 뉴런의 weight는 증가시키고, 아닌 애들은 감소시키는 역할을 할 수 있다는 것이다.

 

- 하지만, Sparse한 구조를 다룰 땐 계산비용이 Dense할때보다 더 많이 소요된다고 한다.

- 그럼에도 불구하고, Sparse matrix를 operation한 문헌들이 많이 나오게 되었는데,

- Sparse matrix를 clustering하여 Dense한 Submatrix를 만드는 연구에서 좋은 성능을 보였다고 한다.

- 그래서 해당 구조를 시험하기 위해, Inception이라는 구조가 나오게 되었다.

4. Architecture Details

- Inception의 주요 아이디어는 CNN에서 Optimal한 local Sparse structure를

- 어떻게 즉시 사용 가능한 dense component로 근사하고 구성할 수 있는지를 찾는 것이다.

- 우선 dense component로 근사시키기 위해서, local sparse structure를 반복적으로 추출하고,

- 이러한 feature last-layer에서 correlation을 분석하여 상관도가 높은 unit을 cluster로 그룹화하여,

- dense하게 근사시킬수 있게 된다.

 

- local sparse structure를 반복적으로 추출한다는 것에 대한 의미를 좀 더 자세히 알아보자.

- 왼쪽 쥐 같은 경우, 3x3이나 5x5이나 추출되는 feature는 유사하지만,

- 오른쪽 쥐 같은 경우, 3x3과 5x5가 추출하는 feature가 달라지게 된다.

--> 5x5가 더 feature를 잘 추출하게 된다.

- 그 이유는, 귀라는 feature의 크기가 단순히 크기때문에 3x3으론 feature를 추출을 못하기 때문이다.

- 이렇듯 다양한 필터 사이즈를 가지고 여러가지 feature map을 뽑아내(Sparse structure)

cf)

:: 1x1 conv:: 작은 feature

:: 3x3 conv:: 중간 feature

:: 5x5 conv:: 큰 feature

:: max pooling:: 중요한정보요약

 

- 다음과 같이 Dense하게 이어줘 correlation을 찾아주는 식이다.

 

(b)에서 1x1 convolutions을 사용하여 Channel개수를 줄여 계산비용을 줄여줄 수 있다.

- 그로 인해, Channel 수를 줄였기 때문에, ConV에서의 filter 수 역시 줄어들게 되기 때문에 계산을 확 줄일수 있다.

- ReLU도 적용이 되기에, non-linearity도 더해주는 역할을 하게 된다.

 

- 이러한 inception구조는 낮은 층에서는 복잡한 구조를 필요로 하지 않으니, tranditional ConV로 진행되고,

- 깊어짐에 따라 inception을 적용하는 구조라고 생각하면 좋다.

 

- Filter Concatenation되는 부분들은 각각의 필터들을 통과해서 나오게된 feature map을 동일하게 만들어 concat하게 된다.

- 동일하게 만드는 과정은, 각기 다른 stride나 padding을 적용하여 이루어 진다.

 

5. GoogLeNet

- 마지막 FC-layer와 연결하기 위해서 GAP(Gloval average pooling)을 사용하였다.

 

'Paper Review(논문 리뷰) > Computer Vision' 카테고리의 다른 글

[논문 리뷰] [CV] Deep Residual Learning for Image Recognition  (0) 2025.03.21
[논문 리뷰] [CV] Rethinking the Inception Architecture for Computer Vision  (0) 2025.03.19
[논문 리뷰] [CV] VERY DEEP CONVOLUTIONAL NETWORKSFOR LARGE-SCALE IMAGE RECOGNITION  (0) 2025.03.17
[논문 리뷰] [CV] Network In Network  (0) 2025.03.17
[논문 리뷰] [CV] Visualizing and Understanding Convolutional Networks  (1) 2025.03.17
  1. 0. Reference
  2.  
  3. 1. Introduction
  4. 2. Related Work
  5. 3. Motivation and High Level Considerations
  6. 4. Architecture Details
  7. 5. GoogLeNet
'Paper Review(논문 리뷰)/Computer Vision' 카테고리의 다른 글
  • [논문 리뷰] [CV] Deep Residual Learning for Image Recognition
  • [논문 리뷰] [CV] Rethinking the Inception Architecture for Computer Vision
  • [논문 리뷰] [CV] VERY DEEP CONVOLUTIONAL NETWORKSFOR LARGE-SCALE IMAGE RECOGNITION
  • [논문 리뷰] [CV] Network In Network
23학번이수현
23학번이수현
밑바닥부터 시작하는 AI보안전문가23학번이수현 님의 블로그입니다.
23학번이수현
밑바닥부터 시작하는 AI보안전문가
23학번이수현
전체
오늘
어제
  • 분류 전체보기 (243)
    • Statistic Study (47)
      • Mathematical Statistics(수리통.. (47)
    • Mathematics Study (15)
      • Linear Algebra (선형대수학) (15)
    • CS Study (74)
      • CLRS (자료구조 | 알고리즘) (49)
      • Database(DB) (11)
      • C++ (11)
      • 컴퓨터 구조 (2)
      • MongoDB (1)
    • DS Study (56)
      • CS 229(Machine Learning) (19)
      • CS 224n(NLP) (5)
      • Web Scraping (7)
      • R4DS(R언어) (20)
      • 밑바닥부터 시작하는 딥러닝 1 (5)
    • Hacking Study (0)
      • Web Hacking (0)
    • 코딩테스트 (5)
      • 백준-Python (5)
    • Paper Review(논문 리뷰) (43)
      • Deep Learning (16)
      • TCGA 관련 논문 (4)
      • Computer Vision (18)
      • NLP (5)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 자료구조
  • R4DS
  • 딥러닝
  • introduction to algoritmhs
  • Introduction to Algorithms
  • cs229
  • 시간복잡도
  • Linear Algebra
  • 선형대수학
  • Machine Learning
  • AI
  • R언어
  • Algorithms
  • 논문 리뷰
  • db
  • clrs
  • 데이터분석
  • 파이썬
  • LSTM
  • C++
  • 알고리즘
  • graph
  • 백준
  • deep learning
  • cs 224n
  • 정렬
  • web scraping
  • NLP
  • 수리통계학
  • Data Structure

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.2
23학번이수현
[논문 리뷰] [CV] Going deeper with convolutions
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.