HyperAIHyperAI
il y a 2 mois

FlashVTG : Réseau de Superposition de Caractéristiques et de Gestion Adaptative des Scores pour le Positionnement Temporel des Vidéos

Cao, Zhuo ; Zhang, Bingqing ; Du, Heming ; Yu, Xin ; Li, Xue ; Wang, Sen
FlashVTG : Réseau de Superposition de Caractéristiques et de Gestion Adaptative des Scores pour le Positionnement Temporel des Vidéos
Résumé

Le Text-guided Video Temporal Grounding (VTG) vise à localiser les segments pertinents dans des vidéos non tronquées en se basant sur des descriptions textuelles, englobant deux sous-tâches : Moment Retrieval (MR) et Highlight Detection (HD). Bien que les méthodes précédentes aient obtenu des résultats louables, il reste difficile de retrouver des moments vidéo courts. Cette difficulté est principalement due à la dépendance vis-à-vis des requêtes de décodeur éparses et limitées, qui restreignent considérablement la précision des prédictions. De plus, des résultats sous-optimaux sont souvent observés car les méthodes antérieures classent les prédictions en fonction de prédictions isolées, négligeant le contexte global de la vidéo. Pour résoudre ces problèmes, nous présentons FlashVTG, un cadre doté d'un module de Couche de Caractéristiques Temporelles (TFL) et d'un module de Raffinement Adaptatif des Scores (ASR). Le module TFL remplace la structure traditionnelle du décodeur pour capturer les variations subtiles du contenu vidéo à travers plusieurs échelles temporelles, tandis que le module ASR améliore le classement des prédictions en intégrant le contexte des moments adjacents et les caractéristiques multi-échelles temporelles. Des expériences approfondies montrent que FlashVTG atteint une performance de pointe sur quatre jeux de données largement adoptés, tant pour le MR que pour le HD. Plus précisément, sur l'ensemble de données QVHighlights, il augmente le mAP de 5,8 % pour le MR et de 3,3 % pour le HD. Pour la recherche de moments courts, FlashVTG améliore le mAP jusqu'à 125 % par rapport aux performances SOTA précédentes. Tous ces progrès sont réalisés sans ajouter de charges supplémentaires à l'entraînement, soulignant son efficacité. Notre code est disponible à l'adresse suivante : https://github.com/Zhuo-Cao/FlashVTG.

FlashVTG : Réseau de Superposition de Caractéristiques et de Gestion Adaptative des Scores pour le Positionnement Temporel des Vidéos | Articles de recherche récents | HyperAI