Les gradients Straight-Through et le seuillage doux suffisent-ils vraiment pour l’entraînement parcimonieux ?

Mettre les poids à zéro pendant l'entraînement d'un réseau de neurones permet de réduire la complexité computationnelle lors de l'inférence. Pour augmenter progressivement le taux de sparsité dans le réseau sans provoquer de discontinuités brutales sur les poids durant l'entraînement, notre méthode combine le seuillage doux (soft-thresholding) et une estimation de gradient par voie directe (straight-through) afin de mettre à jour la version brute, c’est-à-dire non seuillée, des poids mis à zéro. Notre approche, nommée ST-3 pour straight-through / soft-thresholding / sparse-training, obtient des résultats de pointe (SoA) tant en termes de compromis précision/sparsité que précision/FLOPS, lorsqu’on augmente progressivement le taux de sparsité en une seule phase d’entraînement. En particulier, malgré sa simplicité, ST-3 se compare favorablement aux méthodes les plus récentes, qui reposent sur des formulations différentiables ou des principes bio-inspirés de neuro-régénération. Cela suggère que les éléments clés pour une élimination efficace des poids résident principalement dans la capacité à permettre aux poids de s’évoluer de manière fluide à travers l’état nul tout en augmentant progressivement la sparsité. Le code source et les poids sont disponibles à l’adresse suivante : https://github.com/vanderschuea/stthree