11 天前

我们真的需要密集的过参数化吗？稀疏训练中的实时过参数化

Shiwei Liu, Lu Yin, Decebal Constantin Mocanu, Mykola Pechenizkiy

摘要

本文提出了一种训练深度神经网络的新视角，该方法能够在无需昂贵的过参数化的情况下实现当前最先进的性能。为此，我们引入了稀疏训练中的“即时过参数化”（In-Time Over-Parameterization, ITOP）概念。通过从一个随机稀疏网络出发，并在训练过程中持续探索稀疏连接结构，我们实现了在时空流形上的过参数化，从而弥合了稀疏训练与密集训练在表达能力上的差距。进一步地，我们利用ITOP机制深入理解动态稀疏训练（Dynamic Sparse Training, DST）的内在原理，指出DST的优势源于其能够在时间维度上综合考虑所有可能的参数，以搜索最优的稀疏连接结构。只要在训练过程中有足够多的参数被可靠地探索，DST便能显著超越密集神经网络的性能。我们通过一系列实验验证了该理论假设，并在ImageNet数据集上基于ResNet-50实现了当前最优的稀疏训练性能。尤为突出的是，我们的方法在极端稀疏度下，仍显著优于基于过参数化的现有稀疏训练方法。在CIFAR-100上的实验表明，即使在高达98%的极端稀疏度下，我们的方法仍可达到与密集模型相当的性能。相关代码已开源，详见：https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization。