Réseaux épars à partir de zéro : une formation plus rapide sans perte de performance

Nous démontrons la possibilité de ce que nous appelons l'apprentissage creux : une formation accélérée des réseaux neuronaux profonds qui maintiennent des poids creux tout au long de la formation tout en atteignant des niveaux de performance équivalents à ceux d'un réseau dense. Nous y parvenons en développant le momentum creux, un algorithme qui utilise les gradients lissés exponentiellement (momentum) pour identifier les couches et les poids qui réduisent efficacement l'erreur. Le momentum creux redistribue les poids prunés (pruned weights) entre les couches selon la magnitude moyenne du momentum de chaque couche. Au sein d'une couche, le momentum creux fait croître les poids selon la magnitude du momentum des poids nuls. Nous démontrons des performances creuses de pointe sur MNIST, CIFAR-10 et ImageNet, réduisant respectivement l'erreur moyenne de 8 %, 15 % et 6 % par rapport aux autres algorithmes creux. De plus, nous montrons que le momentum creux reproduit fiablement les niveaux de performance d'un réseau dense tout en offrant une formation jusqu'à 5,61 fois plus rapide. Dans notre analyse, des études par ablation montrent que les avantages de la redistribution et de la croissance du momentum augmentent avec la profondeur et la taille du réseau. En outre, nous constatons que le momentum creux est peu sensible au choix de ses hyperparamètres, suggérant que le momentum creux est robuste et facile à utiliser.