17日前

ニューラルアーキテクチャのトポロジーが勾配伝播およびモデル性能に与える影響は何か?

{Radu Marculescu, Guihong Li2, Kartikeya Bhardwa}
ニューラルアーキテクチャのトポロジーが勾配伝播およびモデル性能に与える影響は何か?
要約

DenseNets は、複数のコンピュータビジョンタスクにおいて最先端の精度を達成する、連結型スキップ接続(concatenation-type skip connections)を導入している。本論文では、この連結型スキップ接続のトポロジーが勾配伝播(gradient propagation)と密接に関連しており、その結果として深層ニューラルネットワーク(DNN)のテスト性能が予測可能になることを明らかにする。これを実現するため、DNN内における情報の流れの効率を定量的に評価する新たな指標「NN-Mass」を提案する。さらに、実験的にNN-Massが加算型スキップ接続(すなわち、残差または逆残差)を含む他のネットワークアーキテクチャ、すなわちResNets、Wide-ResNets(WRNs)、MobileNetsに対しても有効であることを示す。したがって、DenseNet系のCNNとResNets/WRNs/MobileNetsの両方において、NN-Massは、サイズや計算量が著しく異なるモデルであっても、類似の精度を持つモデルを識別可能である。MNIST、CIFAR-10、CIFAR-100、ImageNetなど、合成データおよび実データを用いた詳細な実験により、本研究の知見に対する広範な実証的根拠が得られた。最後に、NN-Massの閉形式式(closed-form equation)を用いることで、時間のかかるトレーニングや探索を一切行わずに、初期化段階から著しく圧縮されたDenseNets(CIFAR-10用)およびMobileNets(ImageNet用)を直接設計することが可能となる。