
要約
我々は、疎学習と呼ぶ手法の可能性を示します。この手法では、訓練中に疎な重みを維持しながら、密な性能レベルを達成する深層ニューラルネットワークの高速な訓練が可能となります。これを実現するために、指数平滑化された勾配(モメンタム)を使用して効率的に誤差を減らす層や重みを特定する「疎モメンタム」アルゴリズムを開発しました。疎モメンタムは、各層の平均モメンタムの大きさに応じて、剪定された重みを層間で再分配します。また、層内では、ゼロ値の重みのモメンタムの大きさに従って重みを増加させます。MNIST、CIFAR-10、およびImageNetにおいて、我々は他の疎アルゴリズムと比較して相対的に平均誤差を8%、15%、6%減少させるという最先端の疎性能を示しています。さらに、疎モメンタムが密な性能レベルを信頼性高く再現しつつ最大5.61倍速い訓練を提供することも示しています。解析では、アブレーションスタディによりモメンタムの再分配と成長の利点がネットワークの深さとサイズとともに増大することが明らかになりました。また、疎モメンタムはハイパーパラメータ選択に対して鈍感であることが判明し、これは疎モメンタムが堅牢で使いやすいことを示唆しています。