HyperAIHyperAI

Command Palette

Search for a command to run...

Shot2Story : Un Nouveau Jalon pour la Compréhension Complète des Vidéos à Plusieurs Plans

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Résumé

Une courte séquence vidéo peut contenir le déroulement de plusieurs événements et une intrigue intéressante. Un être humain doit saisir à la fois l'événement dans chaque plan et les associer pour comprendre l'histoire qui se cache derrière. Dans ce travail, nous présentons un nouveau benchmark d'interprétation vidéo multi-plan, Shot2Story, doté de légendes détaillées au niveau des plans, de résumés vidéo complets et de paires questions-réponses. Pour faciliter une meilleure compréhension sémantique des vidéos, nous fournissons des légendes pour les signaux visuels ainsi que pour les narrations humaines. Nous avons conçu plusieurs tâches distinctes, incluant la légendage de vidéos mono-plan, la synthèse de vidéos multi-plans et l'interrogation sur des vidéos multi-plans. Les expériences préliminaires montrent certaines difficultés à générer un résumé long et complet pour les vidéos multi-plans. Néanmoins, les résumés imparfaits générés peuvent déjà obtenir des performances compétitives sur des tâches existantes d'interprétation vidéo telles que l'interrogation sur des vidéos, favorisant un cadre sous-exploité d'interprétation vidéo avec des résumés détaillés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Shot2Story : Un Nouveau Jalon pour la Compréhension Complète des Vidéos à Plusieurs Plans | Articles | HyperAI