HyperAI超神经

폭발하는 기울기 문제이런 현상은 일반적으로 심층 네트워크에서 가중치 초기화 값이 너무 클 때 발생하며, 일반적으로 네트워크 계층 수가 증가할수록 더욱 두드러집니다.

활성화 함수의 미분을 취하면, 결과가 1보다 크면 레이어의 개수가 늘어날수록 최종 그래디언트 업데이트가 기하급수적으로 증가하게 되는데, 즉 그래디언트 폭발이 발생합니다. 결과가 1보다 작으면 레이어 수가 증가함에 따라 최종 그래디언트 업데이트가 기하급수적으로 감소합니다. 즉, 그래디언트가 사라집니다.

그래디언트 폭발과 그래디언트 소멸의 주요 원인은 네트워크가 너무 깊고 네트워크 가중치 업데이트가 불안정하기 때문입니다. 기본적으로 그래디언트 역전파에는 곱셈 효과가 있기 때문입니다. 그래디언트 소실 문제의 경우, 시그모이드 활성화 함수를 ReLU 활성화 함수로 대체하는 것을 고려할 수 있습니다. 또한 LSTM 구조 설계는 RNN의 그래디언트 소실 문제도 개선할 수 있습니다.

폭발하는 그래디언트에 대한 솔루션

사전 훈련 및 미세 조정
그래디언트 클리핑, 가중치 정규화
다양한 활성화 함수 사용
Batchnorm 사용
잔여구조를 활용하다
LSTM 네트워크 사용

참고문헌

【1】신경망 학습에서의 소멸 및 폭발하는 기울기

【2】딥 신경망의 기울기 불안정성 문제 - 기울기 소멸 및 기울기 폭발

【3】머신러닝에서 그래디언트 소멸 및 폭발 현상의 원인과 해결 방안에 대한 자세한 설명