
要約
ネットワークの構造削減(pruning)は、リソース制約のあるシステム上への過剰パラメータ化されたニューラルネットワークの展開を可能にする有効な手法である。近年、重みの再巻き戻し(weight rewinding)や学習率の再巻き戻し(learning rate rewinding)といった、削減後のネットワークを再訓練する最先端技術が、従来のファインチューニングに比べて精度の回復において優れた性能を示している(Rendaら、2020年)が、その背後にある要因についてはまだ明確でない。本研究では、学習率の再巻き戻しの驚異的な有効性について、広範な実験を実施し検証・分析する。その結果、学習率の再巻き戻しが成功する理由は、大規模な学習率の使用にあることが明らかになった。これは、大規模な学習率を含む他の学習率スケジュール、例えば1サイクル学習率スケジュール(Smithら、2019年)においても同様の現象が観察される。再訓練において適切な学習率スケジュールを活用することで、直感に反する現象が示された。すなわち、ランダムに削減されたネットワークが、従来のアプローチで系統的に削減・ファインチューニングされたネットワークよりも優れた性能を達成することがある。本研究の結果は、構造削減後のネットワーク再訓練における学習率スケジュールの極めて重要な役割を強調している。これは、実装時のネットワーク構造削減の実践においてしばしば軽視される重要な要素である。一文要約:構造削減の過程において、異なる再訓練メカニズムの有効性を検討する。