Mesure du raisonnement mathématique multimodal avec le jeu de données MATH-Vision

Les récentes avancées dans les grands modèles multimodaux (LMMs) ont montré des résultats prometteurs en matière de raisonnement mathématique dans des contextes visuels, avec des modèles qui approchent les performances humaines sur des benchmarks existants tels que MathVista. Cependant, nous observons des limitations importantes en termes de diversité des questions et d'étendue des sujets couverts par ces benchmarks. Pour remédier à ce problème, nous présentons le jeu de données MATH-Vision (MATH-V), une collection soigneusement élaborée de 3 040 problèmes mathématiques de haute qualité avec des contextes visuels tirés de vraies compétitions mathématiques. Couvrant 16 disciplines mathématiques distinctes et classés selon 5 niveaux de difficulté, notre jeu de données offre un ensemble complet et diversifié de défis pour évaluer les capacités de raisonnement mathématique des LMMs. À travers une série d'expériences approfondies, nous révélons un écart notable entre les performances actuelles des LMMs et celles des humains sur MATH-V, soulignant l'impératif d'améliorations supplémentaires dans les LMMs. De plus, notre catégorisation détaillée permet une analyse exhaustive des erreurs commises par les LMMs, offrant des pistes précieuses pour orienter les recherches et développements futurs. Le projet est disponible à l'adresse suivante : https://mathvision-cuhk.github.io