Intégration d'une guidance linguistique dans l'apprentissage profond métrique basé sur la vision

L’apprentissage métrique profond (Deep Metric Learning, DML) vise à apprendre des espaces métriques où les distances dans l’espace d’embeddings codent des similarités sémantiques. Ces espaces doivent être transférables à des classes n’ayant pas été observées durant l’entraînement. En pratique, les méthodes DML habituelles incitent les réseaux à résoudre des tâches de classement contrastif définies à partir d’affectations binaires de classes. Toutefois, de telles approches ignorent les relations sémantiques de niveau supérieur entre les classes réelles, ce qui conduit à des espaces d’embeddings appris peu complets sur le plan sémantique et à une représentation erronée des relations entre classes, au détriment de la généralisation de l’espace métrique appris. Pour surmonter ce problème, nous proposons une objectif guidé par le langage pour l’apprentissage de similarités visuelles. En exploitant les embeddings linguistiques de noms de classes experts et de pseudo-noms de classes, nous contextualisons et recalibrer les espaces de représentation visuelle afin de mieux aligner ces derniers sur des significations linguistiques pertinentes, améliorant ainsi la cohérence sémantique. Des expérimentations étendues et des ablations fournissent une solide justification de notre approche, démontrant que la guidance linguistique apporte des améliorations significatives et indépendantes du modèle pour le DML, atteignant des résultats compétitifs et de pointe sur toutes les benchmarks. Le code est disponible à l’adresse suivante : https://github.com/ExplainableML/LanguageGuidance_for_DML.