COSMo : CLIP Talks on Open-Set Multi-Target Domain Adaptation

L'adaptation de domaine multi-cible (MTDA) consiste à apprendre des informations invariantes au domaine à partir d'un seul domaine source et à les appliquer à plusieurs domaines cibles non étiquetés. Cependant, les méthodes de MTDA existantes se concentrent principalement sur la gestion des décalages de domaine au sein des caractéristiques visuelles, en négligeant souvent les caractéristiques sémantiques et en éprouvant des difficultés pour traiter les classes inconnues, ce qui est connu sous le nom d'adaptation de domaine multi-cible ouverte (OSMTDA). Bien que des modèles fondamentaux de grande échelle comme CLIP montrent un potentiel prometteur, leur utilisation pour la MTDA reste largement inexplorée. Cet article introduit COSMo, une nouvelle méthode qui apprend des prompts indépendants du domaine grâce à l'apprentissage guidé par le domaine source pour résoudre le problème de MTDA dans l'espace des prompts. En utilisant un réseau biais spécifique au domaine et des prompts distincts pour les classes connues et inconnues, COSMo s'adapte efficacement aux décalages de domaine et de classe. À notre connaissance, COSMo est la première méthode à aborder l'OSMTDA, offrant une représentation plus réaliste des scénarios du monde réel et répondant aux défis posés par l'adaptation de domaine ouverte et multi-cible. COSMo montre une amélioration moyenne de 5,1 % sur trois jeux de données difficiles : Mini-DomainNet, Office-31 et Office-Home, comparativement à d'autres méthodes d'adaptation de domaine (DA) adaptées pour fonctionner dans le cadre de l'OSMTDA. Le code est disponible à l'adresse suivante : https://github.com/munish30monga/COSMo