il y a 17 jours

Généralisation de domaine à l'aide de modèles pré-entraînés sans adaptation fine

Ziyue Li, Kan Ren, Xinyang Jiang, Bo Li, Haipeng Zhang, Dongsheng Li

Résumé

L’ajustement fin (fine-tuning) des modèles préentraînés est une pratique courante dans les tâches de généralisation de domaine (DG). Toutefois, cet ajustement s’avère généralement coûteux en termes de ressources computationnelles en raison de la taille croissante des modèles préentraînés. Plus important encore, il peut entraîner un surajustement sur les domaines sources, compromettant ainsi leur capacité de généralisation, comme le montrent récemment plusieurs travaux. En général, les modèles préentraînés possèdent un certain niveau de capacité de généralisation et parviennent à obtenir des performances satisfaisantes sur des domaines et des échantillons spécifiques. Toutefois, leur performance en généralisation peut varier considérablement d’un domaine de test à l’autre, voire d’un échantillon à l’autre, ce qui pose un défi pour exploiter au mieux ces modèles préentraînés dans les tâches de DG. Dans cet article, nous proposons un nouveau paradigme de généralisation de domaine visant à mieux exploiter divers modèles préentraînés, nommé Spécialized Ensemble Learning for Domain Generalization (SEDGE). Ce dernier commence par entraîner un adaptateur linéaire dans l’espace des étiquettes à partir de modèles préentraînés fixes, qui transforme les sorties du modèle préentraîné vers l’espace des étiquettes du domaine cible. Ensuite, un réseau d’ensemble prenant en compte la spécialité des modèles est introduit pour dispatcher dynamiquement les modèles préentraînés les plus adaptés à chaque échantillon de test. Des études expérimentales menées sur plusieurs benchmarks montrent que SEDGE améliore significativement les performances par rapport à des baselines robustes, y compris la méthode de pointe en matière de DG, tout en réduisant le nombre de paramètres à entraîner d’environ 99 % et le temps d’entraînement d’environ 99,5 %.