17日前

モーメンタム残差ニューラルネットワーク

Michael E. Sander, Pierre Ablin, Mathieu Blondel, Gabriel Peyré

要約

深層残差ニューラルネットワーク（ResNet）のバックプロパゲーションによる学習には、ネットワークの深さに比例してメモリコストが増加するという問題がある。この問題を回避する方法の一つとして、可逆アーキテクチャの利用が挙げられる。本論文では、ResNetの順伝播ルールに運動量項を導入することで、その構造を変更する手法を提案する。その結果得られるネットワークを「運動量残差ニューラルネットワーク（Momentum ResNet）」と呼ぶ。Momentum ResNetは可逆性を有しており、従来の可逆アーキテクチャとは異なり、既存の任意のResNetブロックに直接置き換えることが可能である。我々は、Momentum ResNetが無限小ステップサイズの枠組みにおいて2次ODE（常微分方程式）として解釈できることを示し、運動量の導入がMomentum ResNetの表現能力を段階的に向上させることを厳密に定式化する。分析の結果、Momentum ResNetは乗法因子を除き任意の線形写像を学習可能である一方、従来のResNetはその能力に制限があることが明らかになった。固定点への収束が要求される「最適化の学習（learning to optimize）」設定において、理論的および実証的に、本手法が既存の可逆アーキテクチャが失敗する状況でも成功することを示した。CIFARおよびImageNetでの実験により、Momentum ResNetはResNetと同等の精度を達成しつつ、大幅に小さなメモリ使用量を実現することを確認した。また、事前学習済みのMomentum ResNetが微調整（fine-tuning）に有望であることも示した。