梯度消失问题主要出现在使用梯度下降法、反向传播训练人工神经网络中,在这类训练方法的迭代中,神经网络权重的更新值与误差函数梯度成正比,但梯度值在某些情况下几乎消失,因此权重无法得到有效更新,神经网络也因此无法继续训练。
传统激活函数中,如双曲正切函数的梯度值在 ( 0 , 1 ) 范围内,但反向传播通过链式法则计算梯度,这种方法计算前一层梯度时,相当于将 N 个较小的数字相乘,使得梯度随 N 呈指数下降,进而导致前面的层训练较为缓慢。