Command Palette
Search for a command to run...
Apprentissage d'une intégration conjointe avec des indices multimodaux pour la recherche vidéo-texte intermodale
Apprentissage d'une intégration conjointe avec des indices multimodaux pour la recherche vidéo-texte intermodale
Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze
Résumé
La construction d’une représentation conjointe invariante par rapport à différentes modalités (par exemple, vidéo, langage) revêt une importance capitale dans de nombreuses applications multimédia. Bien qu’un certain nombre de succès récents aient été obtenus dans le développement de méthodes efficaces pour la recherche image-texte par apprentissage de représentations conjointes, la tâche de recherche vidéo-texte n’a pas encore été pleinement explorée. Dans cet article, nous étudions comment exploiter efficacement les indices multimodaux disponibles à partir des vidéos pour la tâche de recherche vidéo-texte à travers les modalités. À partir d’une analyse approfondie, nous proposons un cadre novateur qui exploite simultanément des caractéristiques multimodales (différentes caractéristiques visuelles, entrées audio et texte) via une stratégie de fusion, permettant une recherche plus efficace. En outre, nous examinons plusieurs fonctions de perte lors de l’entraînement de l’embedding conjoint et proposons une perte de classement par paires modifiée adaptée à la tâche de recherche. Des expériences menées sur les jeux de données MSVD et MSR-VTT démontrent que notre méthode atteint des performances significativement supérieures par rapport aux approches les plus avancées à l’état de l’art.