HyperAIHyperAI
il y a 7 jours

Détection de moments et d'éléments marquants dans des vidéos à l'aide de requêtes en langage naturel

{Mohit Bansal, Tamara Berg, Jie Lei}
Détection de moments et d'éléments marquants dans des vidéos à l'aide de requêtes en langage naturel
Résumé

La détection de moments personnalisés et d’éléments marquants à partir de vidéos en réponse à des requêtes utilisateur formulées en langage naturel (LN) constitue un sujet important mais peu étudié. L’un des principaux défis dans cette direction réside dans le manque de données annotées. Pour remédier à ce problème, nous introduisons le jeu de données Query-based Video Highlights (QVHighlights), comprenant plus de 10 000 vidéos YouTube couvrant une large variété de sujets, allant des activités quotidiennes et les voyages dans les vidéos de vlog de mode de vie aux activités sociales et politiques dans les reportages d’actualité. Chaque vidéo du jeu de données est annotée avec : (1) une requête écrite librement en langage naturel par un humain, (2) les moments pertinents dans la vidéo par rapport à cette requête, et (3) des scores de salience sur une échelle à cinq points pour tous les segments liés à la requête. Cette annotation exhaustive permet de concevoir et d’évaluer des systèmes capables de détecter à la fois les moments pertinents et les extraits marquants pour des requêtes utilisateur diverses et flexibles. Nous proposons également une base solide pour cette tâche : Moment-DETR, un modèle à architecture encodeur-décodeur transformer qui traite la récupération de moments comme un problème de prédiction directe d’ensemble, prenant en entrée des représentations extraites de la vidéo et de la requête, puis prédit de manière end-to-end les coordonnées des moments et leurs scores de salience. Bien que notre modèle n’utilise aucune connaissance a priori humaine, nous montrons qu’il obtient des performances compétitives par rapport à des architectures soigneusement conçues. Grâce à un pré-entraînement faiblement supervisé à l’aide de légendes automatiques issues de la reconnaissance automatique de la parole (ASR), Moment-DETR surpasse significativement les méthodes antérieures. Enfin, nous présentons plusieurs ablations et visualisations du modèle Moment-DETR. Les données et le code sont disponibles publiquement à l’adresse suivante : https://github.com/jayleicn/moment_detr.

Détection de moments et d'éléments marquants dans des vidéos à l'aide de requêtes en langage naturel | Articles de recherche récents | HyperAI