Adaptation de domaine hétérogène au niveau de l'instance pour la recherche esquisse-photo à étiquetage limité

Bien que la recherche d’images à partir de croquis (sketch-to-photo retrieval) présente une large gamme d’applications, l’acquisition de vérités terrain appariées et riches en étiquettes est coûteuse. À l’inverse, les données de recherche d’images photographiques sont plus faciles à obtenir. Par conséquent, les travaux antérieurs pré-entraînent leurs modèles sur des données de recherche d’images photographiques riches en étiquettes (c’est-à-dire le domaine source), puis les fine-tunent sur des données limitées d’images croquis-photos (c’est-à-dire le domaine cible). Toutefois, en l’absence d’un apprentissage conjoint des données source et cible, les connaissances du domaine source risquent d’être oubliées pendant le fine-tuning, tandis qu’un apprentissage conjoint direct peut entraîner un transfert négatif en raison des écarts entre domaines. En outre, les espaces d’étiquettes d’identité des données source et cible sont généralement disjoints, ce qui rend l’adaptation de domaine classique au niveau des catégories (Category-level Domain Adaptation, DA) inapplicable directement. Pour résoudre ces problèmes, nous proposons un cadre d’adaptation de domaine hétérogène au niveau des instances (Instance-level Heterogeneous Domain Adaptation, IHDA). Nous appliquons une stratégie de fine-tuning pour l’apprentissage des étiquettes d’identité, visant à transférer les connaissances au niveau des instances de manière inductive. Parallèlement, des attributs étiquetés provenant des données source sont sélectionnés afin de constituer un espace d’étiquettes partagé entre les domaines source et cible. Guidés par ces attributs partagés, l’adaptation de domaine est utilisée pour combler les écarts entre jeux de données et les écarts hétérogènes entre domaines, permettant ainsi un transfert de connaissances au niveau des instances de manière transductive. Les expériences montrent que notre méthode établit un nouveau record sur trois benchmarks de recherche d’images croquis-photos, sans nécessiter d’étiquettes supplémentaires, ouvrant ainsi la voie à l’entraînement de modèles plus efficaces sur des tâches de recherche d’images hétérogènes à faible étiquetage. Le code associé est disponible à l’adresse suivante : https://github.com/fandulu/IHDA.