Mise à jour des gradients perturbés dans l'espace unité pour l'apprentissage profond

Dans l'apprentissage profond, l'optimisation joue un rôle fondamental. En se concentrant sur la classification d'images, ce travail examine les avantages et inconvénients des optimiseurs largement utilisés, et propose un nouvel algorithme : l’algorithme de descente en gradient unitaire perturbé (Perturbated Unit Gradient Descent, PUGD), qui étend l’opération de gradient normalisé dans un tenseur au sein d’une perturbation pour effectuer les mises à jour dans l’espace unitaire. À travers une série d’expériences et d’analyses, nous démontrons que PUGD assure une mise à jour localement bornée, ce qui signifie que les mises à jour sont contrôlées de manière ponctuelle. D’un autre côté, PUGD permet aux modèles d’atteindre un minimum plat, où l’erreur reste approximativement constante, non seulement en raison de la nature de l’évitement des points stationnaires par normalisation du gradient, mais aussi grâce à une exploration de la « netteté » à l’intérieur de la boule unité. À partir d’une série d’expériences rigoureuses, PUGD permet aux modèles d’atteindre une précision Top-1 de pointe sur Tiny ImageNet, ainsi qu’un bon niveau de performance sur CIFAR- {10, 100}. Nous mettons notre code à disposition sous licence open source à l’adresse suivante : https://github.com/hanktseng131415go/PUGD.