2 个月前
任意深度残差神经网络的可逆架构
Bo Chang; Lili Meng; Eldad Haber; Lars Ruthotto; David Begert; Elliot Holtham

摘要
近日,深度残差网络在许多计算机视觉和自然语言处理任务中取得了成功应用,通过更深和更宽的架构推动了最先进性能的提升。在这项工作中,我们将深度残差网络解释为常微分方程(ODE),这一数学和物理学领域长期研究的对象,拥有丰富的理论和实证成果。基于这种解释,我们建立了一个关于深度神经网络稳定性和可逆性的理论框架,并推导出三种理论上可以无限加深的可逆神经网络架构。可逆性特性使得这些网络可以实现高效的内存利用,无需存储大多数隐藏层的激活值。结合我们架构的稳定性,这使得仅使用适度的计算资源即可训练更深的网络。我们提供了理论分析和实证结果。实验结果表明,我们的架构在CIFAR-10、CIFAR-100和STL-10数据集上优于多个强大的基线模型,达到了优于或与最先进性能相当的效果。此外,我们还展示了当使用较少训练数据时,我们的架构能够产生更优的结果。