
摘要
我们提出了一种新的层设计方法,通过在捷径连接中添加线性门控机制来实现。利用一个标量参数控制每个门,我们提供了一种仅需优化一个参数即可学习恒等映射的方法。这一设计基于残差网络(Residual Networks)背后的动机,即通过对层进行重新定义,使得学习恒等映射对优化器来说更加容易。增强方法每层只引入了一个额外的参数,并通过简化退化为恒等映射的过程,提供了更简单的优化途径。我们提出了一个新的模型——门控残差网络(Gated Residual Network),这是在增强残差网络后的结果。实验结果表明,增强层可以提供更好的优化效果、更高的性能以及更多的层独立性。我们在MNIST数据集上使用全连接网络评估了该方法,实验证明我们的增强方法有助于深度模型的优化,并且对整个层的移除具有很高的容忍度:即使随机移除了模型的一半层,其性能仍能保持超过90%。此外,我们还在CIFAR-10和CIFAR-100数据集上使用宽门控残差网络(Wide Gated ResNets)进行了评估,分别达到了3.65%和18.27%的错误率。