HyperAIHyperAI
il y a 17 jours

Ensemble de Moyennes : Amélioration de la Sélection de Modèles et Renforcement des Performances en Généralisation de Domaine

Devansh Arpit, Huan Wang, Yingbo Zhou, Caiming Xiong
Ensemble de Moyennes : Amélioration de la Sélection de Modèles et Renforcement des Performances en Généralisation de Domaine
Résumé

Dans les cadres de généralisation de domaine (Domain Generalization, DG), les modèles entraînés indépendamment sur un ensemble donné de domaines d’entraînement présentent souvent des performances chaotiques sur des domaines de test soumis à un décalage de distribution, et la stochasticité liée à l’optimisation (par exemple, le grain aléatoire) joue un rôle prépondérant. Cela rend les modèles d’apprentissage profond peu fiables dans des contextes réels. Nous montrons tout d’abord que ce comportement chaotique persiste même le long de la trajectoire d’optimisation d’un seul modèle. À partir de cette observation, nous proposons un protocole simple de moyennage de modèles, qui améliore significativement la généralisation de domaine tout en réduisant l’impact de la stochasticité, en renforçant la corrélation de rang entre la précision sur les données de validation intra-domaine et celle sur les données de test hors-domaine — un facteur essentiel pour une arrêt anticipé fiable. En exploitant cette constatation, nous démontrons qu’au lieu d’ensemblant des modèles non moyennés (procédé courant en pratique), l’ensemblage de modèles moyennés mobiles (EoA, Ensemble of Averages) issus de runs indépendants permet d’obtenir des performances encore supérieures. Nous expliquons théoriquement l’amélioration des performances apportée par l’ensemblage et le moyennage en adaptant le bien connu compromis biais-variance au contexte de la généralisation de domaine. Sur le benchmark DomainBed, en utilisant un ResNet-50 pré-entraîné, cet ensemble de moyennes atteint une moyenne de 68,0 %, dépassant l’ERM classique (sans moyennage ni ensemblage) d’environ 4 %. En utilisant un RegNetY-16GF pré-entraîné, la performance moyenne atteint 76,6 %, soit une amélioration de 6 % par rapport à l’ERM classique. Notre code est disponible à l’adresse suivante : https://github.com/salesforce/ensemble-of-averages.