0. Reference
https://arxiv.org/abs/1505.00387
Highway Networks
There is plenty of theoretical and empirical evidence that depth of neural networks is a crucial ingredient for their success. However, network training becomes more difficult with increasing depth and training of very deep networks remains an open problem
arxiv.org
1. Introduction
- 해당 논문은 신경망을 깊게 쌓기위해 LSTM처럼 gating system을 구현하여 gradient vanishing등의 문제를 해결하였다고 한다.
- 해당 gating system을 통해 정보가 소멸되지 않고 전달될 수 있는 경로를 information highway라고 부르며,
- 해당 구조를 갖는 network를 Highway networks라고 정의하였다.
2. Highway Networks
- Highway network의 gate의 종류는 총 2가지이다.
- T(x,Wt) : Transform gate (입력을 얼마나 변형할지 결정)
- C(x, Wc) : Carry Gate (입력을 얼마나 그대로 유지할지 결정)
- 본 논문에선, C = 1 - T로 나타냄
- 이 두 gate를 이용하여 다음과 같이 출력을 계산하게 된다.(H는 activation function)
- 이를 다시 표기하면 다음과 같다.
- 여기서, 만일 Transform gate가 0이면 입력을 그대로 통과시키고,
- 1이면 완전히 변환된 출력을 반환하게 된다.
- 다음과 같은 구조라고 생각하면 좋다.