HyperAIHyperAI
il y a 16 jours

QVHighlights : Détection de moments et d'extraits marquants dans les vidéos via des requêtes en langage naturel

Jie Lei, Tamara L. Berg, Mohit Bansal
QVHighlights : Détection de moments et d'extraits marquants dans les vidéos via des requêtes en langage naturel
Résumé

La détection de moments personnalisés et d’extraits marquants à partir de vidéos, en réponse à des requêtes utilisateur formulées en langage naturel (LN), est un sujet important mais peu étudié. L’un des principaux défis dans cette direction réside dans le manque de données annotées. Pour remédier à ce problème, nous présentons le jeu de données Query-based Video Highlights (QVHIGHLIGHTS), comprenant plus de 10 000 vidéos YouTube couvrant une large variété de sujets, allant des activités quotidiennes et les voyages dans les vlogs de mode de vie aux événements sociaux et politiques dans les reportages d’actualité. Chaque vidéo est annotée de manière complète avec : (1) une requête libre en langage naturel rédigée par un humain, (2) les moments pertinents dans la vidéo par rapport à cette requête, et (3) des scores de salience sur une échelle à cinq points pour tous les segments pertinents à la requête. Cette annotation exhaustive permet de concevoir et d’évaluer des systèmes capables de détecter à la fois les moments pertinents et les extraits saillants pour des requêtes diverses et flexibles. Nous proposons également une base solide pour cette tâche : Moment-DETR, un modèle d’encodeur-décodage basé sur les transformateurs, qui traite la recherche de moments comme un problème de prédiction directe d’ensemble, prenant en entrée des représentations extraites de la vidéo et de la requête, et prédit de manière end-to-end les coordonnées des moments ainsi que leurs scores de salience. Bien que notre modèle n’utilise aucune connaissance a priori humaine, nous démontrons qu’il obtient des performances compétitives par rapport à des architectures soigneusement conçues. Grâce à un pré-entraînement faiblement supervisé à l’aide de légendes issues de la reconnaissance automatique de la parole (ASR), Moment-DETR surpasse significativement les méthodes précédentes. Enfin, nous présentons plusieurs analyses ablatives ainsi que des visualisations du modèle Moment-DETR. Les données et le code sont disponibles publiquement à l’adresse suivante : https://github.com/jayleicn/moment_detr

QVHighlights : Détection de moments et d'extraits marquants dans les vidéos via des requêtes en langage naturel | Articles de recherche récents | HyperAI