Shot2Story : Un Nouveau Jalon pour la Compréhension Complète des Vidéos à Plusieurs Plans

Une courte séquence vidéo peut contenir le déroulement de plusieurs événements et une intrigue intéressante. Un être humain doit saisir à la fois l'événement dans chaque plan et les associer pour comprendre l'histoire qui se cache derrière. Dans ce travail, nous présentons un nouveau benchmark d'interprétation vidéo multi-plan, Shot2Story, doté de légendes détaillées au niveau des plans, de résumés vidéo complets et de paires questions-réponses. Pour faciliter une meilleure compréhension sémantique des vidéos, nous fournissons des légendes pour les signaux visuels ainsi que pour les narrations humaines. Nous avons conçu plusieurs tâches distinctes, incluant la légendage de vidéos mono-plan, la synthèse de vidéos multi-plans et l'interrogation sur des vidéos multi-plans. Les expériences préliminaires montrent certaines difficultés à générer un résumé long et complet pour les vidéos multi-plans. Néanmoins, les résumés imparfaits générés peuvent déjà obtenir des performances compétitives sur des tâches existantes d'interprétation vidéo telles que l'interrogation sur des vidéos, favorisant un cadre sous-exploité d'interprétation vidéo avec des résumés détaillés.