HyperAIHyperAI
منذ 2 أشهر

قياس الاستدلال الرياضي متعدد الأوضاع باستخدام مجموعة بيانات MATH-Vision

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li
قياس الاستدلال الرياضي متعدد الأوضاع باستخدام مجموعة بيانات MATH-Vision
الملخص

التطورات الحديثة في نماذج متعددة الوسائط الكبيرة (LMMs) أظهرت نتائج واعدة في الاستدلال الرياضي ضمن السياقات البصرية، حيث اقتربت النماذج من الأداء البشري في المقاييس الحالية مثل MathVista. ومع ذلك، لوحظ وجود قيود كبيرة في تنوع الأسئلة ومدى تغطيتها للمساقات الدراسية التي تشملها هذه المقاييس. لمعالجة هذه المشكلة، نقدم مجموعة البيانات MATH-Vision (MATH-V)، وهي مجموعة مختارة بدقة تحتوي على 3,040 مشكلة رياضية عالية الجودة ذات سياقات بصرية مستمدة من مسابقات رياضية حقيقية. تغطي المجموعة 16 مجالًا رياضيًا مختلفًا وتتراوح صعوبتها عبر 5 مستويات، مما يوفر مجموعة شاملة ومتنوعة من التحديات لتقييم قدرات الاستدلال الرياضي لنماذج LMMs. من خلال التجارب الواسعة، كشفنا عن فجوة أداء ملحوظة بين النماذج الحالية والأداء البشري في MATH-V، مما يؤكد الحاجة الملحة إلى المزيد من التطورات في نماذج LMMs. بالإضافة إلى ذلك، فإن تصنيفنا المفصل يسمح بتحليل الأخطاء الشامل للنماذج المتعددة الوسائط الكبيرة، مما يقدم رؤى قيمة لقيادة البحث والتطوير المستقبليين. يمكن الوصول إلى المشروع على الرابط: https://mathvision-cuhk.github.io

قياس الاستدلال الرياضي متعدد الأوضاع باستخدام مجموعة بيانات MATH-Vision | أحدث الأوراق البحثية | HyperAI