Représentation Vidéo Dépendante de la Requête pour la Récupération de Moments et la Détection de Points forts

Récemment, la recherche de moments vidéo et la détection de points forts (MR/HD) sont devenues des sujets de premier plan en raison de l'augmentation drastique de la demande en matière de compréhension vidéo. L'objectif principal du MR/HD est de localiser le moment et d'estimer le niveau d'accord au niveau des clips, c'est-à-dire le score de saillance, par rapport à la requête textuelle donnée. Bien que les modèles basés sur les transformers récents aient apporté certaines avancées, nous avons constaté que ces méthodes ne tirent pas pleinement parti des informations fournies par la requête. Par exemple, la pertinence entre la requête textuelle et le contenu vidéo est parfois négligée lors de la prédiction du moment et de sa saillance. Pour résoudre ce problème, nous introduisons Query-Dependent DETR (QD-DETR), un transformer détecteur adapté au MR/HD. Comme nous observons le rôle mineur d'une requête donnée dans les architectures transformer, notre module d'encodage commence par des couches d'attention croisée pour injecter explicitement le contexte de la requête textuelle dans la représentation vidéo. Ensuite, pour améliorer la capacité du modèle à exploiter les informations de la requête, nous manipulons les paires vidéo-requête pour produire des paires non pertinentes. Ces paires vidéo-requête négatives (non pertinentes) sont formées pour produire des scores de saillance faibles, ce qui encourage à son tour le modèle à estimer une correspondance précise entre les paires vidéo-requête. Enfin, nous présentons un prédicteur de saillance adaptable aux entrées qui définit adaptativement le critère des scores de saillance pour les paires vidéo-requête données. Nos études approfondies confirment l'importance de construire une représentation dépendante des requêtes pour le MR/HD. Plus précisément, QD-DETR surpassent les méthodes actuelles sur les jeux de données QVHighlights, TVSum et Charades-STA. Les codes sources sont disponibles sur github.com/wjun0830/QD-DETR.