Command Palette
Search for a command to run...
动量残差神经网络
动量残差神经网络
Michael E. Sander Pierre Ablin Mathieu Blondel Gabriel Peyré
摘要
使用反向传播训练深度残差神经网络(ResNets)时,其内存开销随网络深度呈线性增长。为解决这一问题,一种可行方法是采用可逆架构。本文提出通过在ResNet的前向传播规则中引入动量项来改变其结构,所得到的网络称为动量残差神经网络(Momentum ResNets),其具有可逆性。与以往的可逆架构不同,Momentum ResNets可作为现有ResNet模块的即插即用替代方案。我们证明,在无穷小步长极限下,Momentum ResNets可被解释为二阶常微分方程(ODEs),并精确刻画了引入动量如何逐步增强Momentum ResNets的表征能力。分析表明,Momentum ResNets能够学习任意线性映射(至多相差一个乘性因子),而传统ResNets则不具备此能力。在要求收敛至不动点的学习优化场景中,我们从理论和实验两方面证明,本方法有效,而现有可逆架构则失败。在CIFAR和ImageNet数据集上的实验结果表明,Momentum ResNets在保持与ResNets相当的准确率的同时,显著降低了内存占用;此外,预训练的Momentum ResNets在微调模型方面展现出良好的应用前景。