Command Palette
Search for a command to run...
Video-MME-v2 : Vers la prochaine étape des benchmarks pour la compréhension vidéo exhaustive
Video-MME-v2 : Vers la prochaine étape des benchmarks pour la compréhension vidéo exhaustive
Résumé
Voici la traduction de votre texte en français, respectant les standards de la communication scientifique et technologique :Avec l'avancement rapide de la compréhension vidéo, les benchmarks existants deviennent de plus en plus saturés, révélant un écart critique entre les scores gonflés des classements (leaderboards) et les capacités réelles des modèles. Pour combler ce fossé grandissant, nous introduisons Video-MME-v2, un benchmark complet conçu pour évaluer rigoureusement la robustesse et la fidélité de la compréhension vidéo. Afin d'évaluer systématiquement les capacités des modèles, nous avons conçu une hiérarchie progressive à trois niveaux qui augmente par paliers la complexité de la compréhension vidéo : allant de l'agrégation d'informations visuelles multi-points, à la modélisation de la dynamique temporelle, pour aboutir finalement au raisonnement multimodal complexe.De plus, contrairement à la précision classique par question, nous proposons une stratégie d'évaluation non linéaire basée sur des groupes, qui impose à la fois une cohérence entre les requêtes liées et une continuité dans le raisonnement multi-étapes. Cette méthode pénalise les réponses correctes fragmentées ou basées sur le hasard, et n'attribue de crédit qu'aux réponses étayées par un raisonnement valide. Pour garantir la qualité des données, Video-MME-v2 est construit via un pipeline d'annotation humaine rigoureusement contrôlé, impliquant 12 annotateurs et 50 réviseurs indépendants. Soutenu par 3 300 heures de travail humain et jusqu'à 5 cycles d'assurance qualité, Video-MME-v2 ambitionne de devenir l'un des benchmarks vidéo les plus faisant autorité.Des expériences approfondies révèlent un écart substantiel entre l'actuel meilleur modèle, Gemini-3-Pro, et les experts humains, et mettent en lumière un goulot d'étranglement hiérarchique clair où les erreurs d'agrégation d'informations visuelles et de modélisation temporelle se propagent pour limiter le raisonnement de haut niveau. Nous constatons en outre que le raisonnement basé sur la réflexion (thinking-based reasoning) est fortement dépendant des indices textuels, améliorant les performances grâce aux sous-titres, mais les dégradant parfois dans des contextes purement visuels. En exposant ces limitations, Video-MME-v2 établit un nouveau banc d'essai exigeant pour le développement de la prochaine génération de MLLMs vidéo.