il y a 2 mois

MVBench : Un banc d'essai complet pour la compréhension multimodale des vidéos

Kunchang Li; Yali Wang; Yinan He; Yizhuo Li; Yi Wang; Yi Liu; Zun Wang; Jilan Xu; Guo Chen; Ping Luo; Limin Wang; Yu Qiao

Voir les détails de l'article

MVBench : Un banc d'essai complet pour la compréhension multimodale des vidéos

Résumé

Avec le développement rapide des Modèles de Langue Multimodaux à Grande Échelle (MLLMs), plusieurs benchmarks diagnostiques ont récemment émergé pour évaluer les capacités de compréhension de ces modèles. Cependant, la plupart de ces benchmarks évaluent principalement la compréhension spatiale dans les tâches d'images statiques, en négligeant la compréhension temporelle dans les tâches vidéo dynamiques. Pour atténuer ce problème, nous présentons un benchmark complet de compréhension vidéo multimodale, nommé MVBench, qui couvre 20 tâches vidéo complexes qui ne peuvent pas être résolues efficacement avec une seule image. Plus précisément, nous introduisons d'abord une nouvelle méthode statique-dynamique pour définir ces tâches liées au temps. En transformant diverses tâches statiques en tâches dynamiques, nous permettons la génération systématique de tâches vidéo nécessitant une gamme étendue de compétences temporelles, allant de la perception à la cognition. Ensuite, guidés par cette définition des tâches, nous convertissons automatiquement les annotations vidéo publiques en questions-réponses à choix multiples pour évaluer chaque tâche. D'une part, ce paradigme distinct nous permet de construire MVBench efficacement, sans beaucoup d'intervention manuelle. D'autre part, il garantit l'équité de l'évaluation grâce aux annotations vidéo véritables, évitant ainsi un classement biaisé des MLLMs. De plus, nous développons une ligne de base robuste pour les vidéos MLLM, à savoir VideoChat2, par un entraînement multimodal progressif avec des données d'instruction variées. Les résultats exhaustifs sur notre MVBench montrent que les MLLMs existants sont loin d'être satisfaisants en termes de compréhension temporelle, tandis que notre VideoChat2 dépasse largement ces modèles leaders avec plus de 15 % sur MVBench. Tous les modèles et données sont disponibles sur https://github.com/OpenGVLab/Ask-Anything.