il y a 2 mois

SIMPLE : Correspondance spécialisée Modèle-Échantillon pour la généralisation de domaine

{Dongsheng Li, Haipeng Zhang, Yifei Shen, Xinyang Jiang, Kan Ren, Ziyue Li}

Résumé

Dans le cadre de la généralisation de domaine (DG), la plupart des méthodes existantes visent à affiner un modèle pré-entraîné spécifique à l’aide d’algorithmes DG novateurs. Dans cet article, nous proposons une direction alternative : exploiter efficacement un ensemble de modèles pré-entraînés sans procéder à leur affinement. À travers des preuves empiriques et théoriques étendues, nous démontrons que (1) les modèles pré-entraînés possèdent déjà un certain degré de généralisation, bien qu’aucun modèle ne soit optimal dans tous les cas de décalage de distribution, et (2) l’erreur de généralisation hors distribution (OOD) dépend de l’adéquation entre le modèle pré-entraîné et les distributions de test inconnues. Cette analyse nous pousse à intégrer une diversité de modèles pré-entraînés et à attribuer, via des techniques de recommandation, le modèle le mieux adapté à chaque échantillon OOD. À cette fin, nous proposons SIMPLE, une méthode spécialisée d’appariement modèle-échantillon pour la généralisation de domaine. Tout d’abord, les prédictions des modèles pré-entraînés sont adaptées au domaine cible à l’aide d’une transformation linéaire de l’espace des étiquettes. Ensuite, nous introduisons un réseau de correspondance sensible aux spécificités des modèles, capable de recommander dynamiquement les modèles pré-entraînés les plus appropriés pour prédire chaque échantillon de test. Les expériences menées sur DomainBed montrent que notre méthode atteint des améliorations significatives des performances (jusqu’à 12,2 % sur un ensemble de données individuel et 3,9 % en moyenne) par rapport aux méthodes de pointe (SOTA), et permet même une amélioration supplémentaire de 6,1 % en élargissant la taille de la pool de modèles pré-entraînés. En outre, notre approche est extrêmement efficace, offrant un gain de vitesse supérieur à 1000 fois par rapport aux méthodes traditionnelles de DG qui requièrent un affinement du modèle pré-entraîné. Le code source et les matériaux complémentaires sont disponibles à l’adresse suivante : https://seqml.github.io/simple.