HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Référence De Raisonnement Visuel VRC-Bench

Date

il y a un an

Size

465.89 MB

Organization

Université nationale australienne
Université de Linköping
Université Mohamed bin Zayed d'IA
Université de Floride centrale

Paper URL

arxiv.org

VRC-Bench est le premier benchmark conçu spécifiquement pour les tâches de raisonnement multimodal étape par étape. Il vise à évaluer de manière exhaustive les performances des modèles dans des scénarios de raisonnement complexes. Il a été publié en 2025 par l'Université Mohamed bin Zayed d'intelligence artificielle, l'Université de Floride centrale, l'Université de Linköping et l'Université nationale australienne. Les résultats de l'article connexe sont «LlamaV-o1 : Repenser le raisonnement visuel étape par étape dans les LLMContrairement aux benchmarks traditionnels qui se concentrent uniquement sur la précision du résultat final, VRC-Bench se concentre sur l'évaluation de la qualité de chaque étape de raisonnement, fournissant une évaluation plus détaillée des capacités du modèle.

L'ensemble de données couvre des défis dans huit domaines différents, notamment le raisonnement visuel, le raisonnement mathématique et logique, le raisonnement scientifique, la compréhension culturelle et sociale, etc. Ces tâches impliquent une perception visuelle complexe, un raisonnement scientifique, une interprétation d'images médicales et d'autres scénarios, et contiennent plus de 4 000 étapes de raisonnement vérifiées manuellement, qui peuvent évaluer de manière exhaustive l'exactitude et la cohérence logique du modèle dans un raisonnement en plusieurs étapes.

Exemple de données

VRC-Bench.torrent
Seeding 1Downloading 0Completed 88Total Downloads 190
  • VRC-Bench/
    • README.md
      1.79 KB
    • README.txt
      3.58 KB
      • data/
        • VRC-Bench.zip
          465.89 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp