HyperAIHyperAI

Command Palette

Search for a command to run...

MVBench : Un banc d'essai complet pour la compréhension multimodale des vidéos

Résumé

Avec le développement rapide des Modèles de Langue Multimodaux à Grande Échelle (MLLMs), plusieurs benchmarks diagnostiques ont récemment émergé pour évaluer les capacités de compréhension de ces modèles. Cependant, la plupart de ces benchmarks évaluent principalement la compréhension spatiale dans les tâches d'images statiques, en négligeant la compréhension temporelle dans les tâches vidéo dynamiques. Pour atténuer ce problème, nous présentons un benchmark complet de compréhension vidéo multimodale, nommé MVBench, qui couvre 20 tâches vidéo complexes qui ne peuvent pas être résolues efficacement avec une seule image. Plus précisément, nous introduisons d'abord une nouvelle méthode statique-dynamique pour définir ces tâches liées au temps. En transformant diverses tâches statiques en tâches dynamiques, nous permettons la génération systématique de tâches vidéo nécessitant une gamme étendue de compétences temporelles, allant de la perception à la cognition. Ensuite, guidés par cette définition des tâches, nous convertissons automatiquement les annotations vidéo publiques en questions-réponses à choix multiples pour évaluer chaque tâche. D'une part, ce paradigme distinct nous permet de construire MVBench efficacement, sans beaucoup d'intervention manuelle. D'autre part, il garantit l'équité de l'évaluation grâce aux annotations vidéo véritables, évitant ainsi un classement biaisé des MLLMs. De plus, nous développons une ligne de base robuste pour les vidéos MLLM, à savoir VideoChat2, par un entraînement multimodal progressif avec des données d'instruction variées. Les résultats exhaustifs sur notre MVBench montrent que les MLLMs existants sont loin d'être satisfaisants en termes de compréhension temporelle, tandis que notre VideoChat2 dépasse largement ces modèles leaders avec plus de 15 % sur MVBench. Tous les modèles et données sont disponibles sur https://github.com/OpenGVLab/Ask-Anything.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp