
摘要
非常深的卷积神经网络引入了诸如梯度消失和退化等问题。近年来,为了解决这些问题,残差网络(Residual Networks)和高速公路网络(Highway Networks)做出了重要贡献。这些网络通过引入跳跃连接(skip connections),使得信息(来自输入或早期层学习到的信息)能够更多地流向深层。这些非常深的模型在诸如ImageNet和COCO等基准测试中显著降低了测试错误率。在本文中,我们提出在残差网络中使用指数线性单元(Exponential Linear Unit, ELU)替代ReLU和批量归一化(Batch Normalization)的组合。我们证明,这不仅加速了残差网络中的学习过程,而且随着深度的增加,还提高了准确性。它在几乎所有数据集上都改善了测试错误率,例如CIFAR-10和CIFAR-100。