
摘要
深度神经网络(DNNs)日益增长的计算需求,促使研究界对构建稀疏但高精度的DNN模型产生了浓厚兴趣。近期工作进一步探索了更具挑战性的稀疏训练(sparse training)场景,即在训练过程中尽可能保持DNN权重的稀疏性,以降低训练阶段的计算开销。然而,现有的稀疏训练方法多依赖经验性策略,其精度通常低于密集(dense)基线模型。本文提出一种通用的DNN稀疏训练方法——交替压缩/解压缩(Alternating Compressed/DeCompressed, AC/DC)训练框架,证明了该算法某一变体的收敛性,并实证表明,在相似的计算预算下,AC/DC在精度上显著优于现有稀疏训练方法;在高稀疏度条件下,AC/DC甚至超越了依赖高精度预训练密集模型的现有方法。AC/DC方法的一个重要特性在于,它能够实现密集模型与稀疏模型的协同训练(co-training),在训练结束时生成一对高精度的稀疏-密集模型。这一特性在实际应用中极具价值:在资源受限的部署环境中,可直接使用压缩后的稀疏模型,而无需重新执行完整的训练流程;同时,该机制也为理解密集模型与压缩模型之间的精度差距提供了深入的洞察。相关代码已开源,地址为:https://github.com/IST-DASLab/ACDC。