Alignement Unifié de Grossier à Fin pour la Recherche Vidéo-Texte

L'approche canonique pour la recherche vidéo-texte repose sur une correspondance grossière ou fine entre les informations visuelles et textuelles. Cependant, retrouver la bonne vidéo en fonction de la requête textuelle est souvent un défi car cela nécessite la capacité de raisonner à propos des indices visuels de haut niveau (scène) et de bas niveau (objet) et de leur relation avec la requête textuelle. À cette fin, nous proposons un modèle d'alignement grossier à fin, appelé UCoFiA (Unified Coarse-to-fine Alignment). Plus précisément, notre modèle capture les informations de similarité intermodale à différents niveaux de granularité. Pour atténuer l'effet des indices visuels non pertinents, nous appliquons également un module d'agrégation interactive de similarité (ISA) qui prend en compte l'importance des différentes caractéristiques visuelles lors de l'agrégation de la similarité intermodale afin d'obtenir un score de similarité pour chaque niveau de granularité. Enfin, nous utilisons l'algorithme Sinkhorn-Knopp pour normaliser les similarités de chaque niveau avant de les sommer, ce qui atténue les problèmes de surreprésentation et sous-représentation aux différents niveaux. En considérant conjointement la similarité intermodale à différents niveaux, UCoFiA permet une unification efficace des alignements multigranulaires. Expérimentalement, UCoFiA surpasses les méthodes précédentes basées sur CLIP dans plusieurs benchmarks de recherche vidéo-texte, réalisant des améliorations respectivement de 2,4 %, 1,4 % et 1,3 % en termes de R@1 pour la recherche texte-vidéo sur MSR-VTT, Activity-Net et DiDeMo. Notre code est disponible au public sur https://github.com/Ziyang412/UCoFiA.