Calibration de la dépendance des requêtes guidée par la corrélation pour l'ancrage temporel vidéo

Le Temporal Grounding consiste à identifier des moments spécifiques ou des points forts d'une vidéo correspondant à des descriptions textuelles. Les approches classiques en matière de temporal grounding traitent tous les extraits vidéo de manière équivalente lors du processus d'encodage, sans tenir compte de leur pertinence sémantique par rapport à la requête textuelle. Par conséquent, nous proposons le Correlation-Guided DEtection TRansformer (CG-DETR), qui vise à fournir des indices pour les extraits vidéo associés à la requête au sein de l'attention croisée. Tout d'abord, nous concevons une attention croisée adaptative avec des jetons fictifs. Ces jetons fictifs, conditionnés par la requête textuelle, prennent une part des poids d'attention, empêchant ainsi les extraits vidéo non pertinents d'être représentés par la requête textuelle. Cependant, tous les mots n'héritent pas également de la corrélation de la requête textuelle avec les extraits vidéo. Nous guidons donc davantage la carte d'attention croisée en inférant la corrélation fine entre les extraits vidéo et les mots. Nous rendons cela possible en apprenant un espace d'embedding conjoint pour des concepts de haut niveau, c'est-à-dire au niveau des moments et des phrases, et en inférant la corrélation clip-mot. Enfin, nous exploitons les caractéristiques spécifiques aux moments et les combinons avec le contexte de chaque vidéo pour former un détecteur de saillance adapté aux moments. En mesurant précisément le degré d'engagement du texte dans chaque extrait vidéo, il évalue exactement l'intensité de chaque point fort. Le CG-DETR obtient des résultats d'état de l'art sur diverses benchmarks pour le temporal grounding. Les codes sont disponibles sur https://github.com/wjun0830/CGDETR.