il y a 6 mois

Résumé

La détection de moments personnalisés et d’extraits marquants à partir de vidéos, en réponse à des requêtes utilisateur formulées en langage naturel (LN), est un sujet important mais peu étudié. L’un des principaux défis dans cette direction réside dans le manque de données annotées. Pour remédier à ce problème, nous présentons le jeu de données Query-based Video Highlights (QVHIGHLIGHTS), comprenant plus de 10 000 vidéos YouTube couvrant une large variété de sujets, allant des activités quotidiennes et les voyages dans les vlogs de mode de vie aux événements sociaux et politiques dans les reportages d’actualité. Chaque vidéo est annotée de manière complète avec : (1) une requête libre en langage naturel rédigée par un humain, (2) les moments pertinents dans la vidéo par rapport à cette requête, et (3) des scores de salience sur une échelle à cinq points pour tous les segments pertinents à la requête. Cette annotation exhaustive permet de concevoir et d’évaluer des systèmes capables de détecter à la fois les moments pertinents et les extraits saillants pour des requêtes diverses et flexibles. Nous proposons également une base solide pour cette tâche : Moment-DETR, un modèle d’encodeur-décodage basé sur les transformateurs, qui traite la recherche de moments comme un problème de prédiction directe d’ensemble, prenant en entrée des représentations extraites de la vidéo et de la requête, et prédit de manière end-to-end les coordonnées des moments ainsi que leurs scores de salience. Bien que notre modèle n’utilise aucune connaissance a priori humaine, nous démontrons qu’il obtient des performances compétitives par rapport à des architectures soigneusement conçues. Grâce à un pré-entraînement faiblement supervisé à l’aide de légendes issues de la reconnaissance automatique de la parole (ASR), Moment-DETR surpasse significativement les méthodes précédentes. Enfin, nous présentons plusieurs analyses ablatives ainsi que des visualisations du modèle Moment-DETR. Les données et le code sont disponibles publiquement à l’adresse suivante : https://github.com/jayleicn/moment_detr

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Vision Par Ordinateur

Tâche

Jie Lei Tamara L. Berg Mohit Bansal

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Vision Par Ordinateur

Tâche

Jie Lei Tamara L. Berg Mohit Bansal

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

QVHighlights : Détection de moments et d'extraits marquants dans les vidéos via des requêtes en langage naturel | Articles | HyperAI

Command Palette

QVHighlights : Détection de moments et d'extraits marquants dans les vidéos via des requêtes en langage naturel

Jie Lei Tamara L. Berg Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

QVHighlights : Détection de moments et d'extraits marquants dans les vidéos via des requêtes en langage naturel

Jie Lei Tamara L. Berg Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

QVHighlights : Détection de moments et d'extraits marquants dans les vidéos via des requêtes en langage naturel

Jie Lei Tamara L. Berg Mohit Bansal

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters