HyperAIHyperAI
il y a 17 jours

Minimisation de la netteté pour une amélioration efficace de la généralisation

Pierre Foret, Ariel Kleiner, Hossein Mobahi, Behnam Neyshabur
Minimisation de la netteté pour une amélioration efficace de la généralisation
Résumé

Dans les modèles actuels fortement sur-paramétrés, la valeur de la perte d’entraînement ne garantit plus en elle-même une bonne capacité de généralisation du modèle. En effet, l’optimisation uniquement de la perte d’entraînement, comme cela est couramment pratiqué, peut facilement conduire à une qualité de modèle sous-optimale. Inspirés par des travaux antérieurs reliant la géométrie du paysage de perte à la généralisation, nous proposons une nouvelle procédure efficace visant à minimiser simultanément la valeur de la perte et sa « netteté » (sharpness). Plus précisément, notre méthode, appelée Minimisation Sensible à la Netteté (Sharpness-Aware Minimization, SAM), cherche des paramètres situés dans des voisinages où la perte est uniformément faible ; cette formulation conduit à un problème d’optimisation min-max qui peut être résolu efficacement par descente de gradient. Nous présentons des résultats expérimentaux démontrant que SAM améliore la généralisation des modèles sur diverses bases de données standard (par exemple, CIFAR-10, CIFAR-100, ImageNet, tâches de fine-tuning) et pour plusieurs architectures, atteignant de nouveaux états de l’art pour plusieurs d’entre elles. De plus, nous constatons que SAM offre naturellement une robustesse au bruit de labels comparable à celle des méthodes les plus avancées spécifiquement conçues pour l’apprentissage avec des labels bruités. Nous mettons notre code à disposition sous licence open source à l’adresse suivante : \url{https://github.com/google-research/sam}.