HyperAIHyperAI

Command Palette

Search for a command to run...

QVHighlights : Détection de moments et d'extraits marquants dans les vidéos via des requêtes en langage naturel

Jie Lei Tamara L. Berg Mohit Bansal

Résumé

La détection de moments personnalisés et d’extraits marquants à partir de vidéos, en réponse à des requêtes utilisateur formulées en langage naturel (LN), est un sujet important mais peu étudié. L’un des principaux défis dans cette direction réside dans le manque de données annotées. Pour remédier à ce problème, nous présentons le jeu de données Query-based Video Highlights (QVHIGHLIGHTS), comprenant plus de 10 000 vidéos YouTube couvrant une large variété de sujets, allant des activités quotidiennes et les voyages dans les vlogs de mode de vie aux événements sociaux et politiques dans les reportages d’actualité. Chaque vidéo est annotée de manière complète avec : (1) une requête libre en langage naturel rédigée par un humain, (2) les moments pertinents dans la vidéo par rapport à cette requête, et (3) des scores de salience sur une échelle à cinq points pour tous les segments pertinents à la requête. Cette annotation exhaustive permet de concevoir et d’évaluer des systèmes capables de détecter à la fois les moments pertinents et les extraits saillants pour des requêtes diverses et flexibles. Nous proposons également une base solide pour cette tâche : Moment-DETR, un modèle d’encodeur-décodage basé sur les transformateurs, qui traite la recherche de moments comme un problème de prédiction directe d’ensemble, prenant en entrée des représentations extraites de la vidéo et de la requête, et prédit de manière end-to-end les coordonnées des moments ainsi que leurs scores de salience. Bien que notre modèle n’utilise aucune connaissance a priori humaine, nous démontrons qu’il obtient des performances compétitives par rapport à des architectures soigneusement conçues. Grâce à un pré-entraînement faiblement supervisé à l’aide de légendes issues de la reconnaissance automatique de la parole (ASR), Moment-DETR surpasse significativement les méthodes précédentes. Enfin, nous présentons plusieurs analyses ablatives ainsi que des visualisations du modèle Moment-DETR. Les données et le code sont disponibles publiquement à l’adresse suivante : https://github.com/jayleicn/moment_detr


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp