사라지는 기울기 문제
사라지는 기울기 문제이는 주로 경사 하강법과 역전파법을 사용하여 학습된 인공 신경망에서 발생합니다. 이러한 학습 방법을 반복하면서 신경망 가중치의 업데이트된 값은 오차 함수의 기울기에 비례하지만, 어떤 경우에는 기울기 값이 거의 사라져서 가중치를 효과적으로 업데이트할 수 없고 신경망의 학습이 계속될 수 없습니다.
하이퍼볼릭 탄젠트 함수와 같은 기존 활성화 함수에서는 기울기 값이 (0, 1) 범위에 있지만, 역전파 함수에서는 체인 규칙을 통해 기울기를 계산합니다. 이 방법으로 이전 계층의 기울기를 계산할 때, N개의 작은 숫자를 곱하는 것과 같습니다. 즉, 기울기가 N에 따라 기하급수적으로 감소하게 되며, 이로 인해 이전 계층의 학습 속도가 느려집니다.