Command Palette
Search for a command to run...
V-ReasonBench : Vers un ensemble unifié de benchmarks pour les modèles de génération vidéo
Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

Résumé
Les progrès récents observés dans les modèles vidéo génératifs, tels que Veo-3, ont mis en évidence des capacités étonnantes de raisonnement zéro-shot, soulignant ainsi un besoin croissant d’évaluations systématiques et fiables. Nous présentons V-ReasonBench, un benchmark conçu pour évaluer le raisonnement vidéo selon quatre dimensions clés : résolution structurée de problèmes, cognition spatiale, inférence fondée sur des motifs, et dynamique physique. Ce benchmark repose sur des séquences d’images synthétiques et réelles, offrant une diversité de tâches vérifiables, reproductibles, évolutives et sans ambiguïté. Les évaluations menées sur six modèles vidéo d’avant-garde révèlent des différences nettes selon les dimensions, avec une variation notable dans les capacités de raisonnement structuré, spatial, basé sur les motifs et physique. Nous comparons également les modèles vidéo aux meilleurs modèles d’image, analysons les comportements courants d’hallucinations, et étudions l’impact de la durée vidéo sur le raisonnement en chaîne de trames. Globalement, V-ReasonBench fournit un cadre unifié et reproductible pour mesurer le raisonnement vidéo, visant à soutenir le développement de modèles dotés de compétences de raisonnement plus fiables et mieux alignées sur celles des humains.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.