3ヶ月前

ロトケイ・ヒポテシス：スパースでトレーニング可能なニューラルネットワークの発見

{Michael Carbin Jonathan Frankle}

要約

ニューラルネットワークの剪定（pruning）技術は、訓練済みネットワークのパラメータ数を90％以上削減でき、精度を損なうことなく、ストレージ要件を低減し、推論の計算性能を向上させることが可能である。しかし、現状の経験から、剪定によって得られるスパースなアーキテクチャは、初期から訓練を開始する際に困難を伴うことが知られている。これは、訓練性能の向上にも寄与するはずである。本研究では、標準的な剪定手法が、初期化が適切なため効果的に訓練可能なサブネットワークを自然に発見することを見出した。この結果に基づき、「ロトケイスト・仮説（lottery ticket hypothesis）」を提唱する。すなわち、密度の高い、ランダムに初期化された前向き型ネットワークには、訓練を独立して行う際に、オリジナルのネットワークと同等のテスト精度を、類似の反復回数で達成できるサブネットワーク（「当選チケット」）が内包されているという仮説である。我々が発見した当選チケットは、初期化の「ロト当選」に恵まれている：その接続の初期重みが、訓練を特に効果的にするものである。本研究では、当選チケットを特定するためのアルゴリズムを提示し、ロトケイスト・仮説およびこのような偶然的な初期化の重要性を裏付ける一連の実験を報告する。MNISTおよびCIFAR10の複数の全結合型および畳み込み型前向き型アーキテクチャにおいて、当選チケットは、オリジナルネットワークの10～20％以下のサイズで、一貫して存在することが確認された。このサイズを超えると、発見された当選チケットはオリジナルネットワークよりも高速に学習し、高いテスト精度に到達することが明らかになった。