HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 jours

V-ReasonBench : Vers un ensemble unifié de benchmarks pour les modèles de génération vidéo

Yang Luo Xuanlei Zhao Baijiong Lin Lingting Zhu Liyao Tang Yuqi Liu Ying-Cong Chen Shengju Qian Xin Wang Yang You

V-ReasonBench : Vers un ensemble unifié de benchmarks pour les modèles de génération vidéo

Résumé

Les progrès récents observés dans les modèles vidéo génératifs, tels que Veo-3, ont mis en évidence des capacités étonnantes de raisonnement zéro-shot, soulignant ainsi un besoin croissant d’évaluations systématiques et fiables. Nous présentons V-ReasonBench, un benchmark conçu pour évaluer le raisonnement vidéo selon quatre dimensions clés : résolution structurée de problèmes, cognition spatiale, inférence fondée sur des motifs, et dynamique physique. Ce benchmark repose sur des séquences d’images synthétiques et réelles, offrant une diversité de tâches vérifiables, reproductibles, évolutives et sans ambiguïté. Les évaluations menées sur six modèles vidéo d’avant-garde révèlent des différences nettes selon les dimensions, avec une variation notable dans les capacités de raisonnement structuré, spatial, basé sur les motifs et physique. Nous comparons également les modèles vidéo aux meilleurs modèles d’image, analysons les comportements courants d’hallucinations, et étudions l’impact de la durée vidéo sur le raisonnement en chaîne de trames. Globalement, V-ReasonBench fournit un cadre unifié et reproductible pour mesurer le raisonnement vidéo, visant à soutenir le développement de modèles dotés de compétences de raisonnement plus fiables et mieux alignées sur celles des humains.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
V-ReasonBench : Vers un ensemble unifié de benchmarks pour les modèles de génération vidéo | Articles de recherche | HyperAI