BAM-DETR : Détecteur de Moments Alignés aux Frontières pour le Positionnement Temporel de Phrases dans les Vidéos

L'ancrage temporel de phrases vise à localiser les moments pertinents en relation avec une description linguistique. Récemment, des approches similaires à DETR ont réalisé des progrès notables en prédiction du centre et de la durée d'un moment cible. Cependant, elles souffrent du problème de décalage du centre, dû à l'ambiguïté inhérente des centres de moments, ce qui entraîne des prédictions inexactes. Pour remédier à ce problème, nous proposons une nouvelle formulation de moments axée sur les limites. Dans notre paradigme, le modèle n'a plus besoin de trouver le centre précis mais peut prédire n'importe quel point d'ancrage au sein de l'intervalle, à partir duquel les limites sont directement estimées. Sur cette base, nous concevons un transformateur de détection de moments alignés sur les limites, doté d'un processus de décodage à double voie. Plus précisément, il affine le point d'ancrage et les limites au sein de voies parallèles en utilisant respectivement une attention globale et une attention axée sur les limites. Cette conception séparée permet au modèle de se concentrer sur les régions souhaitables, favorisant une précision accrue dans l'affinement des prédictions de moments. De plus, nous proposons une méthode de classement basée sur la qualité, garantissant que les propositions ayant une haute qualité de localisation soient priorisées par rapport aux propositions incomplètes. Des expériences menées sur trois bancs d'essai valident l'efficacité des méthodes proposées. Le code est disponible à l'adresse suivante : https://github.com/Pilhyeon/BAM-DETR.