HyperAI

Ensemble De Données D'annotation De Raisonnement Mathématique MV-MATH

Date

il y a 2 mois

Taille

40.82 MB

Organisation

Académie chinoise des sciences

URL de publication

eternal8080.github.io

Licence

MIT

MV-MATH est un ensemble de données de référence de raisonnement mathématique multimodal proposé par l'Institut d'automatisation de l'Académie chinoise des sciences en 2025. Il vise à évaluer de manière exhaustive la capacité de raisonnement mathématique des grands modèles de langage multimodaux (MLLM) dans des scènes multivisuelles.MV-MATH : Évaluation du raisonnement mathématique multimodal dans des contextes multivisuels", a été accepté par CVPR 2025.

L'ensemble de données MV-MATH contient 2 009 problèmes mathématiques de haute qualité, divisés en trois types : questions à choix multiples, questions à trous et questions à plusieurs étapes. L'ensemble de données contient plusieurs scènes visuelles et chaque question est équipée de 2 à 8 images. Ces images sont entrelacées avec du texte pour former des scènes multivisuelles complexes, plus proches des problèmes mathématiques du monde réel et permettant d'évaluer efficacement la capacité de raisonnement du modèle à traiter des informations multivisuelles. Deuxièmement, l’ensemble de données est richement annoté. Chaque échantillon a été validé de manière croisée par au moins deux annotateurs. Les annotations couvrent les questions, les réponses, l’analyse détaillée et la pertinence de l’image, fournissant des informations détaillées pour l’évaluation du modèle. De plus, l'ensemble de données couvre 11 domaines des mathématiques, de l'arithmétique de base à la géométrie avancée, y compris la géométrie analytique, l'algèbre, la géométrie métrique, la combinatoire, la géométrie de transformation, la logique, la géométrie solide, l'arithmétique, la géométrie combinatoire, la géométrie descriptive et les statistiques. L'ensemble de données est également divisé en trois niveaux de difficulté en fonction de la longueur des réponses détaillées, qui peuvent évaluer de manière exhaustive la capacité de raisonnement du modèle dans différents domaines mathématiques. Il convient de mentionner que cet ensemble de données introduit pour la première fois l'étiquette de fonctionnalité de corrélation d'images, divisant l'ensemble de données en deux sous-ensembles : ensemble mutuellement dépendant (MD) et ensemble indépendant (ID). Dans le sous-ensemble MD, les images sont interdépendantes et la compréhension d’une image nécessite une référence à d’autres images ; alors que dans le sous-ensemble ID, les images sont indépendantes et peuvent être interprétées individuellement.

Non seulement il est issu de scénarios réels d'éducation K-12 et peut être utilisé pour développer des systèmes de tutorat intelligents pour aider les élèves à résoudre des problèmes mathématiques complexes grâce à une combinaison de graphiques et de texte, mais il fournit également un outil d'évaluation standardisé pour la recherche sur l'apprentissage multimodal, aidant les chercheurs à identifier et à améliorer les écarts de performance dans les modèles de raisonnement mathématique. Cependant, dans les tests des modèles de langage multimodaux grand public, tels que GPT-4o et QvQ, leurs scores sur l'ensemble de données MV-MATH étaient respectivement de 32,1 et 29,3, tous deux en dessous de la ligne de passage, indiquant que les modèles multimodaux grand public actuels sont toujours confrontés à des défis importants dans les tâches de raisonnement mathématique multivisuel.

Exemples de MV-MATH tirés de chaque type de question, chaque échantillon contenant plusieurs contextes visuels.
MV-MATH.torrent
Partage 3Téléchargement 0Terminés 31Téléchargements totaux 46
  • MV-MATH/
    • README.md
      3.03 KB
    • README.txt
      6.05 KB
      • data/
        • main.zip
          40.82 MB