HyperAIHyperAI

Command Palette

Search for a command to run...

قياس الاستدلال الرياضي متعدد الأوضاع باستخدام مجموعة بيانات MATH-Vision

Ke Wang; Junting Pan; Weikang Shi; Zimu Lu; Mingjie Zhan; Hongsheng Li

الملخص

التطورات الحديثة في نماذج متعددة الوسائط الكبيرة (LMMs) أظهرت نتائج واعدة في الاستدلال الرياضي ضمن السياقات البصرية، حيث اقتربت النماذج من الأداء البشري في المقاييس الحالية مثل MathVista. ومع ذلك، لوحظ وجود قيود كبيرة في تنوع الأسئلة ومدى تغطيتها للمساقات الدراسية التي تشملها هذه المقاييس. لمعالجة هذه المشكلة، نقدم مجموعة البيانات MATH-Vision (MATH-V)، وهي مجموعة مختارة بدقة تحتوي على 3,040 مشكلة رياضية عالية الجودة ذات سياقات بصرية مستمدة من مسابقات رياضية حقيقية. تغطي المجموعة 16 مجالًا رياضيًا مختلفًا وتتراوح صعوبتها عبر 5 مستويات، مما يوفر مجموعة شاملة ومتنوعة من التحديات لتقييم قدرات الاستدلال الرياضي لنماذج LMMs. من خلال التجارب الواسعة، كشفنا عن فجوة أداء ملحوظة بين النماذج الحالية والأداء البشري في MATH-V، مما يؤكد الحاجة الملحة إلى المزيد من التطورات في نماذج LMMs. بالإضافة إلى ذلك، فإن تصنيفنا المفصل يسمح بتحليل الأخطاء الشامل للنماذج المتعددة الوسائط الكبيرة، مما يقدم رؤى قيمة لقيادة البحث والتطوير المستقبليين. يمكن الوصول إلى المشروع على الرابط: https://mathvision-cuhk.github.io


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp