HyperAIHyperAI

Command Palette

Search for a command to run...

Alignement Unifié de Grossier à Fin pour la Recherche Vidéo-Texte

Ziyang Wang Yi-Lin Sung Feng Cheng Gedas Bertasius Mohit Bansal

Résumé

L'approche canonique pour la recherche vidéo-texte repose sur une correspondance grossière ou fine entre les informations visuelles et textuelles. Cependant, retrouver la bonne vidéo en fonction de la requête textuelle est souvent un défi car cela nécessite la capacité de raisonner à propos des indices visuels de haut niveau (scène) et de bas niveau (objet) et de leur relation avec la requête textuelle. À cette fin, nous proposons un modèle d'alignement grossier à fin, appelé UCoFiA (Unified Coarse-to-fine Alignment). Plus précisément, notre modèle capture les informations de similarité intermodale à différents niveaux de granularité. Pour atténuer l'effet des indices visuels non pertinents, nous appliquons également un module d'agrégation interactive de similarité (ISA) qui prend en compte l'importance des différentes caractéristiques visuelles lors de l'agrégation de la similarité intermodale afin d'obtenir un score de similarité pour chaque niveau de granularité. Enfin, nous utilisons l'algorithme Sinkhorn-Knopp pour normaliser les similarités de chaque niveau avant de les sommer, ce qui atténue les problèmes de surreprésentation et sous-représentation aux différents niveaux. En considérant conjointement la similarité intermodale à différents niveaux, UCoFiA permet une unification efficace des alignements multigranulaires. Expérimentalement, UCoFiA surpasses les méthodes précédentes basées sur CLIP dans plusieurs benchmarks de recherche vidéo-texte, réalisant des améliorations respectivement de 2,4 %, 1,4 % et 1,3 % en termes de R@1 pour la recherche texte-vidéo sur MSR-VTT, Activity-Net et DiDeMo. Notre code est disponible au public sur https://github.com/Ziyang412/UCoFiA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Alignement Unifié de Grossier à Fin pour la Recherche Vidéo-Texte | Articles | HyperAI