Command Palette
Search for a command to run...
OmniVideoBench : Vers une évaluation de la compréhension audiovisuelle pour les MLLMs omnivores

Résumé
Les progrès récents des modèles de langage à grande échelle multimodaux (MLLM) ont démontré un potentiel substantiel dans la compréhension vidéo. Toutefois, les évaluations existantes échouent à évaluer de manière exhaustive les capacités de raisonnement synergique entre les modalités audio et visuelle, en négligeant souvent l’une de ces modalités ou en les intégrant de manière logiquement incohérente. Pour combler cet écart, nous introduisons OmniVideoBench, un benchmark à grande échelle et soigneusement conçu, dédié à l’évaluation de la compréhension audio-visuelle synergique, mettant un accent particulier sur la complémentarité des modalités et la cohérence logique. Plus précisément, OmniVideoBench comprend 1 000 paires question-réponse (QA) de haute qualité, chacune annotée avec des traces de raisonnement étape par étape, extraites de 628 vidéos diverses, allant de quelques secondes à 30 minutes, et vérifiées manuellement afin d’assurer leur exactitude et leur unicité. En outre, OmniVideoBench inclut 13 types de questions soigneusement conçus, couvrant le raisonnement temporel, la localisation spatiale, le dénombrement, l’inférence causale, la synthèse, et bien d’autres aspects, permettant ainsi de capturer les défis essentiels de la compréhension vidéo. L’évaluation de plusieurs MLLM sur OmniVideoBench révèle un écart marqué entre les performances des modèles et le raisonnement humain, les modèles open-source se situant significativement en retrait par rapport à leurs homologues à code fermé, soulignant ainsi la difficulté intrinsèque du raisonnement audio-visuel authentique. Nous mettrons OmniVideoBench à disposition afin de favoriser le développement de MLLM dotés de capacités de raisonnement plus fortes et plus généralisables.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.