HyperAIHyperAI

Command Palette

Search for a command to run...

Tencent Text-Video Retrieval : Interactions hiérarchiques cross-modales avec des représentations multi-niveaux

Jie Jiang Shaobo Min Weijie Kong Dihong Gong Hongfa Wang Zhifeng Li Wei Liu

Résumé

La recherche texte-vidéo joue un rôle fondamental dans la compréhension multimodale et a suscité un intérêt croissant ces dernières années. La plupart des méthodes existantes se concentrent sur la construction de paires contrastives entre des vidéos entières et des phrases de légendes complètes, tout en négligeant les relations croisées à granularité fine, telles que celles entre clip et phrase, ou entre image (frame) et mot. Dans cet article, nous proposons une nouvelle méthode, nommée Interaction Croisée Hiérarchique (HCMI), visant à explorer des relations croisées à plusieurs niveaux entre vidéo-phrase, clip-phrase et image-mot pour la recherche texte-vidéo. En tenant compte des relations sémantiques intrinsèques entre images, HCMI applique une attention auto-associative pour explorer les corrélations au niveau des images, puis regroupe de manière adaptative les images corrélées en représentations au niveau du clip et de la vidéo. Ainsi, HCMI construit des représentations vidéo hiérarchiques aux granularités image-clip-vidéo afin de capturer le contenu vidéo à une échelle fine, tout en établissant des représentations textuelles hiérarchiques aux granularités mot-phrase-phrase complète pour le modalité texte. Grâce à ces représentations hiérarchiques pour la vidéo et le texte, une apprentissage contrastif hiérarchique est conçu pour explorer des relations croisées à granularité fine, à savoir image-mot, clip-phrase et vidéo-phrase, permettant ainsi à HCMI d’effectuer une comparaison sémantique complète entre les modalités vidéo et texte. En outre, grâce à un débruitage adaptatif des étiquettes et à une amélioration des échantillons marginaux, HCMI atteint de nouveaux records sur diverses bases de données, notamment des scores Rank@1 de 55,0 %, 58,2 %, 29,7 %, 52,1 % et 57,3 % respectivement sur MSR-VTT, MSVD, LSMDC, DiDemo et ActivityNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp