HyperAIHyperAI
il y a 17 jours

Fishr : Variance Invariante des Gradient pour la Généralisation Hors Distribution

Alexandre Rame, Corentin Dancette, Matthieu Cord
Fishr : Variance Invariante des Gradient pour la Généralisation Hors Distribution
Résumé

Apprendre des modèles robustes capables de généraliser efficacement face à des variations dans la distribution des données est essentiel pour les applications du monde réel. À cette fin, un intérêt croissant s’est porté sur l’apprentissage simultané à partir de plusieurs domaines d’entraînement, tout en imposant divers types d’invariance entre ces domaines. Toutefois, toutes les approches existantes échouent à démontrer des avantages systématiques dans des protocoles d’évaluation contrôlés. Dans cet article, nous introduisons une nouvelle régularisation, nommée Fishr, qui impose une invariance au niveau des domaines dans l’espace des gradients de la fonction de perte : plus précisément, elle égalise les variances des gradients au niveau des domaines entre les différents domaines d’entraînement. Notre méthode repose sur les liens étroits entre la covariance des gradients, l’information de Fisher et la Hessienne de la perte : en particulier, nous montrons que Fishr aligne finalement localement les paysages de perte au niveau des domaines autour des poids finaux. Des expériences étendues démontrent l’efficacité de Fishr pour la généralisation hors distribution. Notamment, Fishr améliore l’état de l’art sur le benchmark DomainBed et se comporte de manière constamment supérieure à la minimisation empirique du risque. Notre code est disponible à l’adresse suivante : https://github.com/alexrame/fishr.