HyperAIHyperAI
il y a 9 jours

Tencent Text-Video Retrieval : Interactions hiérarchiques cross-modales avec des représentations multi-niveaux

Jie Jiang, Shaobo Min, Weijie Kong, Dihong Gong, Hongfa Wang, Zhifeng Li, Wei Liu
Tencent Text-Video Retrieval : Interactions hiérarchiques cross-modales avec des représentations multi-niveaux
Résumé

La recherche texte-vidéo joue un rôle fondamental dans la compréhension multimodale et a suscité un intérêt croissant ces dernières années. La plupart des méthodes existantes se concentrent sur la construction de paires contrastives entre des vidéos entières et des phrases de légendes complètes, tout en négligeant les relations croisées à granularité fine, telles que celles entre clip et phrase, ou entre image (frame) et mot. Dans cet article, nous proposons une nouvelle méthode, nommée Interaction Croisée Hiérarchique (HCMI), visant à explorer des relations croisées à plusieurs niveaux entre vidéo-phrase, clip-phrase et image-mot pour la recherche texte-vidéo. En tenant compte des relations sémantiques intrinsèques entre images, HCMI applique une attention auto-associative pour explorer les corrélations au niveau des images, puis regroupe de manière adaptative les images corrélées en représentations au niveau du clip et de la vidéo. Ainsi, HCMI construit des représentations vidéo hiérarchiques aux granularités image-clip-vidéo afin de capturer le contenu vidéo à une échelle fine, tout en établissant des représentations textuelles hiérarchiques aux granularités mot-phrase-phrase complète pour le modalité texte. Grâce à ces représentations hiérarchiques pour la vidéo et le texte, une apprentissage contrastif hiérarchique est conçu pour explorer des relations croisées à granularité fine, à savoir image-mot, clip-phrase et vidéo-phrase, permettant ainsi à HCMI d’effectuer une comparaison sémantique complète entre les modalités vidéo et texte. En outre, grâce à un débruitage adaptatif des étiquettes et à une amélioration des échantillons marginaux, HCMI atteint de nouveaux records sur diverses bases de données, notamment des scores Rank@1 de 55,0 %, 58,2 %, 29,7 %, 52,1 % et 57,3 % respectivement sur MSR-VTT, MSVD, LSMDC, DiDemo et ActivityNet.

Tencent Text-Video Retrieval : Interactions hiérarchiques cross-modales avec des représentations multi-niveaux | Articles de recherche récents | HyperAI