Zero Shot Cross Modal Retrieval
La tâche de Zero-Shot Cross-Modal Retrieval vise à trouver des éléments pertinents entre différentes modalités (comme le texte et les images) sans exemples d'entraînement. Le principal défi de cette tâche est le fossé de hétérogénéité, qui fait référence aux différences inhérentes entre les types de données dans différentes modalités, rendant difficile une mesure directe de la similarité. Pour résoudre ce problème, les méthodes existantes réduisent généralement le fossé de hétérogénéité en apprenant un espace de représentation latent partagé, permettant ainsi aux données de différentes modalités d'être projetées dans le même espace de représentation, ce qui facilite la mesure directe de la similarité entre les éléments multimodaux. Cette technologie présente une valeur d'application significative dans des domaines tels que le commerce électronique.