Command Palette
Search for a command to run...
通过神经再生增强剪枝可塑性实现稀疏训练
通过神经再生增强剪枝可塑性实现稀疏训练
Shiwei Liu Tianlong Chen Xiaohan Chen Zahra Atashgahi Lu Yin Huanyu Kou Li Shen Mykola Pechenizkiy Zhangyang Wang Decebal Constantin Mocanu
摘要
近期,关于彩票效应假设(Lottery Ticket Hypothesis, LTH)以及单次剪枝(Single-Shot Network Pruning, SNIP)的研究引发了学术界对训练后剪枝(迭代幅度剪枝)与训练前剪枝(初始化阶段剪枝)的广泛关注。然而,前者通常面临极高的计算开销,而后者则往往难以达到理想的性能表现。相比之下,训练中剪枝(during-training pruning)这一类方法在保持训练与推理效率的同时,能够实现与现有方法相当的性能,因而目前仍鲜有深入探索。为更深入理解训练中剪枝机制,本文从“剪枝可塑性”(pruning plasticity)的角度出发,对整个训练过程中剪枝的影响进行了定量分析。剪枝可塑性指剪枝后网络恢复原始性能的能力,该概念有助于解释文献中关于神经网络剪枝的多个经验性现象。进一步研究发现,通过引入一种受大脑启发的机制——神经再生(neuroregeneration),即在剪枝后重建与被剪枝数量相同的连接,可显著提升剪枝可塑性。基于此,我们提出一种新型渐进式幅度剪枝方法——零代价神经再生渐进剪枝(Gradual Pruning with Zero-Cost Neuroregeneration, \textbf{GraNet}),该方法在性能上达到当前最优水平。尤为突出的是,GraNet 的稀疏到稀疏(sparse-to-sparse)版本首次在不增加训练时间的前提下,实现了在 ImageNet 数据集上基于 ResNet-50 的稀疏到稀疏训练性能超越多种密集到稀疏(dense-to-sparse)方法的突破。相关代码已开源,地址为:https://github.com/Shiweiliuiiiiiii/GraNet。