8日前
ストレートスルー勾配とソフトしきい値処理だけで十分なのは、スパーストレーニングのためか?
Antoine Vanderschueren, Christophe De Vleeschouwer

要約
ニューラルネットワークの学習中に重みをゼロに設定することは、推論時の計算複雑性を低減するのに有効である。学習中に急激な重みの不連続性を引き起こさずに、ネットワーク内のスパース性比を段階的に高めるために、本研究ではソフトスレッショルド処理とストレートスルー勾配推定を組み合わせ、ゼロ化された重みの元の(つまり、スレッショルド処理を施していない)バージョンを更新する手法を提案する。本手法は「ST-3(Straight-Through / Soft-Thresholding / Sparse Training)」と命名され、単一の学習サイクル内でスパース性比を段階的に増加させた場合、精度とスパース性、および精度とFLOPS(浮動小数点演算回数)のトレードオフにおいて、最先端(SoA)の性能を達成している。特に、本手法は構造的に単純であるにもかかわらず、微分可能な定式化や生物由来の神経再生原理を採用した最新の手法と比較しても優位性を示している。これは、効果的なスパース化の鍵となる要素が、スパース性比を段階的に増加させながら重みがゼロの状態を滑らかに通過できる自由度を与えることにあり、その重要性を示唆している。ソースコードおよび重みは、https://github.com/vanderschuea/stthree にて公開されている。