
摘要
向更深的神经网络发展的趋势主要是由一个普遍观察到的现象推动的,即增加网络深度可以提高其性能。然而,最近的研究证据表明,单纯增加深度可能并不是提高性能的最佳方法,尤其是在存在其他限制的情况下。对深度残差网络的研究也表明,这些网络实际上可能不是作为一个单一的深层网络运行,而是作为许多相对浅层网络的集合体在工作。本文探讨了这些问题,并在此过程中提出了一种新的深度残差网络展开视图的解释,该解释能够阐明一些实验中观察到的行为。基于这一解释,我们设计了一种新的、更浅的残差网络架构,在ImageNet分类数据集上显著优于ResNet-200等非常深的模型。此外,我们还展示了这种性能优势可以转移到其他问题领域,通过开发一种语义分割方法,在PASCAL VOC、PASCAL Context和Cityscapes等数据集上取得了显著优于现有最佳方法的结果。我们提出的架构不仅在性能上超越了比较对象(包括非常深的ResNets),而且在内存使用方面更加高效,在某些情况下训练时间也更短。代码和模型可在https://github.com/itijyou/ademxapp 获取。