
要約
深層残差ニューラルネットワーク(ResNet)のバックプロパゲーションによる学習には、ネットワークの深さに比例してメモリコストが増加するという問題がある。この問題を回避する方法の一つとして、可逆アーキテクチャの利用が挙げられる。本論文では、ResNetの順伝播ルールに運動量項を導入することで、その構造を変更する手法を提案する。その結果得られるネットワークを「運動量残差ニューラルネットワーク(Momentum ResNet)」と呼ぶ。Momentum ResNetは可逆性を有しており、従来の可逆アーキテクチャとは異なり、既存の任意のResNetブロックに直接置き換えることが可能である。我々は、Momentum ResNetが無限小ステップサイズの枠組みにおいて2次ODE(常微分方程式)として解釈できることを示し、運動量の導入がMomentum ResNetの表現能力を段階的に向上させることを厳密に定式化する。分析の結果、Momentum ResNetは乗法因子を除き任意の線形写像を学習可能である一方、従来のResNetはその能力に制限があることが明らかになった。固定点への収束が要求される「最適化の学習(learning to optimize)」設定において、理論的および実証的に、本手法が既存の可逆アーキテクチャが失敗する状況でも成功することを示した。CIFARおよびImageNetでの実験により、Momentum ResNetはResNetと同等の精度を達成しつつ、大幅に小さなメモリ使用量を実現することを確認した。また、事前学習済みのMomentum ResNetが微調整(fine-tuning)に有望であることも示した。