il y a 8 mois

Résumé

Les récentes avancées dans les grands modèles multimodaux (LMMs) ont montré des résultats prometteurs en matière de raisonnement mathématique dans des contextes visuels, avec des modèles qui approchent les performances humaines sur des benchmarks existants tels que MathVista. Cependant, nous observons des limitations importantes en termes de diversité des questions et d'étendue des sujets couverts par ces benchmarks. Pour remédier à ce problème, nous présentons le jeu de données MATH-Vision (MATH-V), une collection soigneusement élaborée de 3 040 problèmes mathématiques de haute qualité avec des contextes visuels tirés de vraies compétitions mathématiques. Couvrant 16 disciplines mathématiques distinctes et classés selon 5 niveaux de difficulté, notre jeu de données offre un ensemble complet et diversifié de défis pour évaluer les capacités de raisonnement mathématique des LMMs. À travers une série d'expériences approfondies, nous révélons un écart notable entre les performances actuelles des LMMs et celles des humains sur MATH-V, soulignant l'impératif d'améliorations supplémentaires dans les LMMs. De plus, notre catégorisation détaillée permet une analyse exhaustive des erreurs commises par les LMMs, offrant des pistes précieuses pour orienter les recherches et développements futurs. Le projet est disponible à l'adresse suivante : https://mathvision-cuhk.github.io

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Mesure du raisonnement mathématique multimodal avec le jeu de données MATH-Vision | Articles | HyperAI

Command Palette

Mesure du raisonnement mathématique multimodal avec le jeu de données MATH-Vision

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Mesure du raisonnement mathématique multimodal avec le jeu de données MATH-Vision

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Mesure du raisonnement mathématique multimodal avec le jeu de données MATH-Vision

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters