2 个月前

通过连续稀疏化赢得彩票奖

Pedro Savarese; Hugo Silva; Michael Maire

摘要

对于高效、稀疏的深度神经网络模型的探索，最显著的方法是剪枝：先训练一个密集且过度参数化的网络，然后移除参数，通常通过遵循手工设计的启发式规则来实现。此外，最近提出的彩票假设（Lottery Ticket Hypothesis）推测，对于一个典型规模的神经网络，可以找到一些小型子网络，这些子网络在从头开始训练时，只需相当的计算资源就能达到与原始密集网络相同的性能。我们重新审视了剪枝算法的基本方面，指出了先前方法中缺失的关键成分，并开发了一种基于新型不可行 $\ell_0$ 正则化近似的方法——连续稀疏化（Continuous Sparsification），用于搜索稀疏网络。我们将该方法与主流的启发式剪枝方法进行了对比，不仅在剪枝方面进行了比较，还在寻找可以从早期迭代成功重新训练的稀疏子网络方面进行了测试。实验结果表明，我们在两个目标上均超越了现有最佳方法，在多种模型和数据集上的表现尤为突出，包括在CIFAR-10上训练的VGG和在ImageNet上训练的ResNet-50。除了为剪枝设定新的标准外，连续稀疏化还提供了快速并行的彩票搜索功能，为彩票假设的应用开辟了新的途径。