Détection de moments vidéo avec prise en compte du contexte pour la recherche de moments vidéo

La recherche de moments vidéo (Video Moment Retrieval, VMR) identifie un moment spécifique dans une vidéo non tronquée en réponse à une requête en langage naturel. Cette tâche est sujette au problème d'alignement faible inhérent aux ensembles de données vidéo. En raison de l'ambiguïté, une requête ne couvre pas nécessairement tous les détails pertinents du moment correspondant, ou le moment peut contenir des images mal alignées et non pertinentes, ce qui peut potentiellement limiter les gains de performance ultérieurs. Pour résoudre ce problème, nous proposons un détecteur de moments basé sur un transformateur prenant en compte le contexte (Background-Aware Moment Detection Transformer, BM-DETR). Notre modèle adopte une approche contrastive, utilisant soigneusement les requêtes négatives associées à d'autres moments de la vidéo. Plus précisément, notre modèle apprend à prédire le moment cible à partir de la probabilité conjointe de chaque image donnée la requête positive et le complément des requêtes négatives. Cela permet une utilisation efficace du contexte environnant, améliorant la sensibilité aux moments et renforçant l'alignement global dans les vidéos. De nombreuses expériences menées sur quatre benchmarks démontrent l'efficacité de notre approche. Notre code est disponible à l'adresse suivante : \url{https://github.com/minjoong507/BM-DETR}