2ヶ月前
任意の深さを持つ残差ニューラルネットワークのための可逆アーキテクチャ
Bo Chang; Lili Meng; Eldad Haber; Lars Ruthotto; David Begert; Elliot Holtham

要約
最近、深層残差ネットワークは多くのコンピュータビジョンと自然言語処理のタスクに成功裏に応用され、より深いおよび広いアーキテクチャにより最先端の性能を向上させています。本研究では、深層残差ネットワークを常微分方程式(ODEs)として解釈し、数学や物理学において長年研究されてきた豊富な理論的・実証的成功に基づいています。この解釈から、深層ニューラルネットワークの安定性と可逆性に関する理論的枠組みを開発し、理論上任意の深さまで達することができる3つの可逆ニューラルネットワークアーキテクチャを導き出しました。可逆性の特性により、メモリ効率の高い実装が可能となり、ほとんどの隠れ層の活性化を保存する必要がなくなります。当該アーキテクチャの安定性と相まって、比較的 modest な計算資源でより深いネットワークの学習が可能となります。我々は理論的な分析と実証結果を提供しており、実験結果はCIFAR-10、CIFAR-100およびSTL-10において複数の強力なベースラインに対して当該アーキテクチャの有効性を示しています。これらのデータセットでの性能は最先端またはそれに匹敵するものとなっています。さらに、少ない訓練データを使用して学習した場合でも当該アーキテクチャが優れた結果をもたらすことを示しています。注:「modest」は「控えめ」と訳すこともできますが、「比較的 modest な」という表現で「適度な」「中程度の」といった意味合いを持たせることも可能です。ここでは後者を選択しました。