
摘要
在训练神经网络时将权重置零有助于降低推理阶段的计算复杂度。为在训练过程中逐步提高网络稀疏度,同时避免因权重突变导致的不连续问题,本文提出的方法结合了软阈值化(soft-thresholding)与直通梯度估计(straight-through gradient estimation),用于更新被置零权重的原始(即未经过阈值处理)版本。该方法命名为ST-3(Straight-Through / Soft-Thresholding / Sparse Training),在单次训练周期内逐步提升稀疏度时,无论是在精度-稀疏度权衡,还是精度-FLOPS权衡方面,均取得了当前最优(SoA)性能。特别地,尽管ST-3结构简单,其表现仍优于近期采用可微分形式或受生物神经再生机制启发的先进方法。这一结果表明,实现高效稀疏化的关键因素在于:在逐步提高稀疏度的过程中,赋予权重在经过零值状态时能够平滑演化的自由度。项目源代码与模型权重已公开,详见:https://github.com/vanderschuea/stthree