0. Reference
https://proceedings.mlr.press/v9/glorot10a.html
Understanding the difficulty of training deep feedforward neural networks
Whereas before 2006 it appears that deep multi-layer neural networks were not successfully trained, since then several algorithms have been shown to successfully train them, with experimental resul...
proceedings.mlr.press
1. Introduction
- 본 논문은 Xavier Initialization에 대한 논문이다.
- 즉, 해당 리뷰도 Xavier Initialization에 대해서 본격적으로 알아갈 수 있게 끔 형성되어 있다.
2. Effect of Activation Functions and Saturation During Training
2.1. Experiments with the sigmoid
- 총 4개의 hidden layer을 가진 DNN에 Activation function으로 Sigmoid를 사용하고,
- 학습 도중 각 Hidden layer의 weight의 distribution(mean,std)를 관찰하였다.
- 맨 마지막 Hidden layer의 sigmoid 출력이 빠르게 0으로 수렴되는 것을 확인할 수 있었다.
- 반대로, 맨 첫번째 Hidden layer는 평균이 0.5보다 높은 값을 유지하고 있었다.
- 포화현상은 깊은 네트워크에서는 학습 내내 지속되었다고 한다.
- 이러한 현상은, Sigmoid의 출력이 0이되어버리는 순간 gradient를 거의 전달하지 않기 때문에,
- Backpropagetion이 단절되게 된다.
- 반면에, tanh나 softsign 같은 함수는 출력 평균이 0이기 때문에, gradient가 더울 잘 전달될 수 있다.
- 그래서 본 논문에선, sigmoid의 대안으로 tanh나 softsign을 사용하라고 권장한다.(현재는 셋 다 사용은 최대한 피하라고 한다.)
2.2. Experiments with the Hyperbolic tangent
- tanh는 sigmoid와 달리 0을 중심으로 대칭이기 때문에 saturation problem이 상대적으로 덜 발생한다.
- 하지만, 초기값에 따라 바로 saturation problem이 발생할 가능성이 빈번하다고 한다.
- 이러한 이유에 대해선 아직 밝혀진 바가 없다고 한다.
2.3. Experiments with the softsign
- tanh와 비슷한 S자 곡선을 가지지만, 좀 더 부드러운 곡선을 가진다는 특징이 있다.
- 이 이유는 간단히, tanh는 exponential의 특징을 보이고, Softsign은 polynomial의 특징을 가지기 때문이다.
- 해당 Softsign은 sigmoid와 tanh와는 다르게, weight들이 Knee point(-1,1)에 집중하고 있다.
3. Studying Gradients and their Propagation
3.1. Effect of the cost function
- back-propagation을 통해 weight들을 학습해 나갈때, loss function도 큰 영향을 끼친다고 한다.
- 해당논문에선, Cross entropy와 MSE를 비교하였는데, softmax와 함께 사용할 시,
- Cross entropy의 경우 다중 클래스 분류에 최적화되고, 또한 학습 시 plateau 구간이 적고 매끄러운 지형을 형성하게 된다고 한다.
- 반면에, MSE는 Plateau가 많아 학습이 느리고 어렵다고 한다.
3.2. Xavier Initialization
- Xavier Initialization의 근본적인 아이디어는,
- 현재 layer와 그 다음 layer의 weight의 분산값이 변화가 없다라는 것이다.
- 이를 이용하면 다음과 같이 쉽게 유도된다.
'Paper Review(논문 리뷰) > Deep Learning' 카테고리의 다른 글
[논문 리뷰] [DL] When Does Label Smoothing Help? (0) | 2025.03.20 |
---|---|
[논문 리뷰] [Deep Learning] Memory Networks (0) | 2025.02.07 |
[눈문 리뷰] [Deep Learning] Sequence to Sequence Learning with Neural Networks (0) | 2025.02.05 |
[논문 리뷰] [Deep Learning] empirical evaluation of gated recurrent neural networks on sequence modeling (0) | 2025.02.05 |
[논문 리뷰] [Deep Learning] LSTM: A Search Space Odyssey (1) | 2025.02.05 |