HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Référence De Raisonnement Visuel VRC-Bench

Date

il y a 9 mois

Taille

465.89 MB

Organisation

Université nationale australienne
Université de Linköping
Université Mohamed bin Zayed d'IA
Université de Floride centrale

URL de l'article

arxiv.org

VRC-Bench est le premier benchmark conçu spécifiquement pour les tâches de raisonnement multimodal étape par étape. Il vise à évaluer de manière exhaustive les performances des modèles dans des scénarios de raisonnement complexes. Il a été publié en 2025 par l'Université Mohamed bin Zayed d'intelligence artificielle, l'Université de Floride centrale, l'Université de Linköping et l'Université nationale australienne. Les résultats de l'article connexe sont «LlamaV-o1 : Repenser le raisonnement visuel étape par étape dans les LLMContrairement aux benchmarks traditionnels qui se concentrent uniquement sur la précision du résultat final, VRC-Bench se concentre sur l'évaluation de la qualité de chaque étape de raisonnement, fournissant une évaluation plus détaillée des capacités du modèle.

L'ensemble de données couvre des défis dans huit domaines différents, notamment le raisonnement visuel, le raisonnement mathématique et logique, le raisonnement scientifique, la compréhension culturelle et sociale, etc. Ces tâches impliquent une perception visuelle complexe, un raisonnement scientifique, une interprétation d'images médicales et d'autres scénarios, et contiennent plus de 4 000 étapes de raisonnement vérifiées manuellement, qui peuvent évaluer de manière exhaustive l'exactitude et la cohérence logique du modèle dans un raisonnement en plusieurs étapes.

Exemple de données

VRC-Bench.torrent
Partage 1Téléchargement 0Terminés 83Téléchargements totaux 159
  • VRC-Bench/
    • README.md
      1.79 KB
    • README.txt
      3.58 KB
      • data/
        • VRC-Bench.zip
          465.89 MB

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données De Référence De Raisonnement Visuel VRC-Bench | Ensembles de données | HyperAI