HyperAIHyperAI

Command Palette

Search for a command to run...

Moyennisation des poids conduit à des optima plus larges et une meilleure généralisation

Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

Résumé

Les réseaux neuronaux profonds sont généralement entraînés en optimisant une fonction de perte à l'aide d'une variante de la descente de gradient stochastique (SGD), conjointement avec un taux d'apprentissage décroissant, jusqu'à convergence. Nous démontrons que la moyenne simple de plusieurs points le long de la trajectoire de la SGD, avec un taux d'apprentissage cyclique ou constant, conduit à une meilleure généralisation que l'entraînement conventionnel. Nous montrons également que cette procédure de moyennage des poids stochastiques (Stochastic Weight Averaging, SWA) trouve des solutions beaucoup plus plates que la SGD et approxime l'approche récente du regroupement géométrique rapide (Fast Geometric Ensembling, FGE) avec un seul modèle. En utilisant SWA, nous obtenons une amélioration notable de la précision des tests par rapport à l'entraînement conventionnel par SGD sur une gamme de réseaux résiduels, PyramidNets, DenseNets et Shake-Shake networks sur CIFAR-10, CIFAR-100 et ImageNet. En résumé, SWA est extrêmement facile à mettre en œuvre, améliore la généralisation et a presque aucun coût computationnel supplémentaire.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp