Plongement visuel-sémantique polysémique pour la recherche intermodale

L'embedding visuel-sémantique vise à trouver un espace latent partagé où les instances visuelles et textuelles liées sont proches les unes des autres. La plupart des méthodes actuelles apprennent des fonctions d'embedding injectives qui cartographient une instance à un seul point dans cet espace partagé. Malheureusement, l'embedding injectif ne peut pas gérer efficacement les instances polyvalentes ayant plusieurs significations possibles ; au mieux, il trouverait une représentation moyenne de différentes significations. Cela entrave son utilisation dans des scénarios réels où les instances individuelles et leurs associations inter-modales sont souvent ambiguës. Dans ce travail, nous introduisons les Réseaux d'Embedding d'Instances Polyvalentes (PIE-Nets) qui calculent plusieurs représentations diverses d'une instance en combinant le contexte global avec des caractéristiques guidées localement via l'attention auto multi-têtes et l'apprentissage résiduel. Pour apprendre l'embedding visuel-sémantique, nous associons deux PIE-Nets et les optimisons conjointement dans le cadre de l'apprentissage par instances multiples. La plupart des travaux existants sur la recherche inter-modale se concentrent sur les données image-texte. Ici, nous abordons également un cas plus complexe de recherche vidéo-texte. Pour faciliter la recherche future en matière de récupération vidéo-texte, nous publions un nouveau jeu de données composé de 50 000 paires vidéo-sentence collectées à partir des médias sociaux, baptisé MRW (my reaction when). Nous démontrons notre approche dans les scénarios de récupération image-texte et vidéo-texte en utilisant MS-COCO, TGIF et notre nouveau jeu de données MRW.