HyperAI超神经

VRC-Bench est le premier benchmark conçu spécifiquement pour les tâches de raisonnement multimodal étape par étape. Il vise à évaluer de manière exhaustive les performances des modèles dans des scénarios de raisonnement complexes. Il a été publié en 2025 par l'Université Mohamed bin Zayed d'intelligence artificielle, l'Université de Floride centrale, l'Université de Linköping et l'Université nationale australienne. Les résultats de l'article connexe sont «LlamaV-o1 : Repenser le raisonnement visuel étape par étape dans les LLMContrairement aux benchmarks traditionnels qui se concentrent uniquement sur la précision du résultat final, VRC-Bench se concentre sur l'évaluation de la qualité de chaque étape de raisonnement, fournissant une évaluation plus détaillée des capacités du modèle.

L'ensemble de données couvre des défis dans huit domaines différents, notamment le raisonnement visuel, le raisonnement mathématique et logique, le raisonnement scientifique, la compréhension culturelle et sociale, etc. Ces tâches impliquent une perception visuelle complexe, un raisonnement scientifique, une interprétation d'images médicales et d'autres scénarios, et contiennent plus de 4 000 étapes de raisonnement vérifiées manuellement, qui peuvent évaluer de manière exhaustive l'exactitude et la cohérence logique du modèle dans un raisonnement en plusieurs étapes.

Ensemble De Données De Référence De Raisonnement Visuel VRC-Bench