11 天前

我们真的需要密集的过参数化吗?稀疏训练中的实时过参数化

Shiwei Liu, Lu Yin, Decebal Constantin Mocanu, Mykola Pechenizkiy
我们真的需要密集的过参数化吗?稀疏训练中的实时过参数化
摘要

本文提出了一种训练深度神经网络的新视角,该方法能够在无需昂贵的过参数化的情况下实现当前最先进的性能。为此,我们引入了稀疏训练中的“即时过参数化”(In-Time Over-Parameterization, ITOP)概念。通过从一个随机稀疏网络出发,并在训练过程中持续探索稀疏连接结构,我们实现了在时空流形上的过参数化,从而弥合了稀疏训练与密集训练在表达能力上的差距。进一步地,我们利用ITOP机制深入理解动态稀疏训练(Dynamic Sparse Training, DST)的内在原理,指出DST的优势源于其能够在时间维度上综合考虑所有可能的参数,以搜索最优的稀疏连接结构。只要在训练过程中有足够多的参数被可靠地探索,DST便能显著超越密集神经网络的性能。我们通过一系列实验验证了该理论假设,并在ImageNet数据集上基于ResNet-50实现了当前最优的稀疏训练性能。尤为突出的是,我们的方法在极端稀疏度下,仍显著优于基于过参数化的现有稀疏训练方法。在CIFAR-100上的实验表明,即使在高达98%的极端稀疏度下,我们的方法仍可达到与密集模型相当的性能。相关代码已开源,详见:https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization。

我们真的需要密集的过参数化吗?稀疏训练中的实时过参数化 | 最新论文 | HyperAI超神经