HyperAIHyperAI

Command Palette

Search for a command to run...

Mesure du raisonnement mathématique multimodal avec le jeu de données MATH-Vision

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

Résumé

Les récentes avancées dans les grands modèles multimodaux (LMMs) ont montré des résultats prometteurs en matière de raisonnement mathématique dans des contextes visuels, avec des modèles qui approchent les performances humaines sur des benchmarks existants tels que MathVista. Cependant, nous observons des limitations importantes en termes de diversité des questions et d'étendue des sujets couverts par ces benchmarks. Pour remédier à ce problème, nous présentons le jeu de données MATH-Vision (MATH-V), une collection soigneusement élaborée de 3 040 problèmes mathématiques de haute qualité avec des contextes visuels tirés de vraies compétitions mathématiques. Couvrant 16 disciplines mathématiques distinctes et classés selon 5 niveaux de difficulté, notre jeu de données offre un ensemble complet et diversifié de défis pour évaluer les capacités de raisonnement mathématique des LMMs. À travers une série d'expériences approfondies, nous révélons un écart notable entre les performances actuelles des LMMs et celles des humains sur MATH-V, soulignant l'impératif d'améliorations supplémentaires dans les LMMs. De plus, notre catégorisation détaillée permet une analyse exhaustive des erreurs commises par les LMMs, offrant des pistes précieuses pour orienter les recherches et développements futurs. Le projet est disponible à l'adresse suivante : https://mathvision-cuhk.github.io


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp