3 个月前

彩票理论假设：寻找稀疏且可训练的神经网络

{Michael Carbin Jonathan Frankle}

摘要

神经网络剪枝技术可将训练完成的网络参数量减少超过90%，在不损害准确率的前提下显著降低存储需求，并提升推理阶段的计算性能。然而，当前的实践经验表明，剪枝生成的稀疏结构从零开始训练时往往难以有效训练，这限制了其在训练效率方面的进一步优化潜力。我们发现，一种标准的剪枝方法能够自然地揭示出一类子网络，其初始权重设置使得这些子网络具备高效训练的能力。基于这一发现，我们提出了“彩票理论假设”（lottery ticket hypothesis）：在密集的、随机初始化的前馈神经网络中，包含着某些特定的子网络（称为“中奖彩票”），当这些子网络独立训练时，能够在与原网络相近的迭代次数内达到相当的测试准确率。我们所发现的“中奖彩票”正是赢得了初始权重的“彩票”：其连接的初始权重恰好使得训练过程极为高效。本文提出了一种识别中奖彩票的算法，并通过一系列实验验证了该假设的合理性，以及这种偶然性初始权重的重要性。我们持续发现，对于MNIST和CIFAR10数据集上的多个全连接与卷积前馈网络架构，其对应的中奖彩票规模仅为原网络的10%至20%以下。当子网络规模超过这一阈值时，所发现的中奖彩票不仅训练速度优于原始网络，还能达到更高的测试准确率。