Command Palette
Search for a command to run...
Moyennisation des poids conduit à des optima plus larges et une meilleure généralisation
Moyennisation des poids conduit à des optima plus larges et une meilleure généralisation
Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1
Résumé
Les réseaux neuronaux profonds sont généralement entraînés en optimisant une fonction de perte à l'aide d'une variante de la descente de gradient stochastique (SGD), conjointement avec un taux d'apprentissage décroissant, jusqu'à convergence. Nous démontrons que la moyenne simple de plusieurs points le long de la trajectoire de la SGD, avec un taux d'apprentissage cyclique ou constant, conduit à une meilleure généralisation que l'entraînement conventionnel. Nous montrons également que cette procédure de moyennage des poids stochastiques (Stochastic Weight Averaging, SWA) trouve des solutions beaucoup plus plates que la SGD et approxime l'approche récente du regroupement géométrique rapide (Fast Geometric Ensembling, FGE) avec un seul modèle. En utilisant SWA, nous obtenons une amélioration notable de la précision des tests par rapport à l'entraînement conventionnel par SGD sur une gamme de réseaux résiduels, PyramidNets, DenseNets et Shake-Shake networks sur CIFAR-10, CIFAR-100 et ImageNet. En résumé, SWA est extrêmement facile à mettre en œuvre, améliore la généralisation et a presque aucun coût computationnel supplémentaire.