HyperAI

مجموعة بيانات شرح الاستدلال الرياضي MV-MATH

التاريخ

منذ 2 أشهر

الحجم

40.82 MB

المؤسسة

الأكاديمية الصينية للعلوم

رابط النشر

eternal8080.github.io

الترخيص

MIT

MV-MATH هي مجموعة بيانات مرجعية للتفكير الرياضي متعدد الوسائط اقترحها معهد الأتمتة التابع للأكاديمية الصينية للعلوم في عام 2025. وتهدف إلى تقييم قدرة التفكير الرياضي لنماذج اللغة الكبيرة متعددة الوسائط (MLLMs) بشكل شامل في المشاهد متعددة المرئيات.MV-MATH: تقييم التفكير الرياضي متعدد الوسائط في سياقات متعددة المرئيات"، تم قبولها من قبل CVPR 2025.

تحتوي مجموعة بيانات MV-MATH على 2009 مسألة رياضية عالية الجودة، مقسمة إلى ثلاثة أنواع: أسئلة الاختيار من متعدد، وأسئلة ملء الفراغات، وأسئلة متعددة الخطوات. تحتوي مجموعة البيانات على مشاهد بصرية متعددة، وكل سؤال مزود بما يتراوح بين 2 إلى 8 صور. تتشابك هذه الصور مع النصوص لتشكيل مشاهد معقدة متعددة المرئيات، وهي أقرب إلى المشاكل الرياضية في العالم الحقيقي ويمكنها تقييم قدرة النموذج على التفكير في معالجة المعلومات متعددة المرئيات بشكل فعال. ثانياً، مجموعة البيانات مذكورة بشكل غني. تم التحقق من صحة كل عينة من قبل اثنين من المعلقين على الأقل. وتغطي التعليقات الأسئلة والأجوبة والتحليلات التفصيلية وأهمية الصورة، مما يوفر معلومات تفصيلية لتقييم النموذج. بالإضافة إلى ذلك، تغطي مجموعة البيانات 11 مجالاً من مجالات الرياضيات من الحساب الأساسي إلى الهندسة المتقدمة، بما في ذلك الهندسة التحليلية، والجبر، والهندسة المترية، والتوافقيات، وهندسة التحويل، والمنطق، والهندسة الصلبة، والحساب، والهندسة التوافقية، والهندسة الوصفية، والإحصاء. وتنقسم مجموعة البيانات أيضًا إلى ثلاثة مستويات صعوبة بناءً على طول الإجابات التفصيلية، مما يمكنها من تقييم قدرة النموذج على التفكير بشكل شامل في المجالات الرياضية المختلفة. ومن الجدير بالذكر أن مجموعة البيانات هذه تقدم تسمية ميزة ارتباط الصورة لأول مرة، حيث تقسم مجموعة البيانات إلى مجموعتين فرعيتين: المجموعة المترابطة (MD) والمجموعة المستقلة (ID). في المجموعة الفرعية MD، تكون الصور مترابطة ويتطلب فهم صورة واحدة الرجوع إلى صور أخرى؛ بينما في مجموعة الهوية، تكون الصور مستقلة ويمكن تفسيرها بشكل فردي.

لا يقتصر الأمر على أنه ينشأ من سيناريوهات التعليم الحقيقية من رياض الأطفال حتى الصف الثاني عشر ويمكن استخدامه لتطوير أنظمة تعليمية ذكية لمساعدة الطلاب على حل المشكلات الرياضية المعقدة من خلال مزيج من الرسومات والنصوص، كما أنه يوفر أداة تقييم موحدة لأبحاث التعلم المتعدد الوسائط، مما يساعد الباحثين على تحديد فجوات الأداء وتحسينها في النماذج في التفكير الرياضي. ومع ذلك، في اختبارات نماذج اللغة الكبيرة متعددة الوسائط السائدة، مثل GPT-4o وQvQ، كانت درجاتهم على مجموعة بيانات MV-MATH 32.1 و29.3 على التوالي، وكلاهما أقل من خط النجاح، مما يشير إلى أن نماذج اللغة الكبيرة متعددة الوسائط الحالية لا تزال تواجه تحديات كبيرة في مهام التفكير الرياضي متعدد المرئيات.

أمثلة على MV-MATH مأخوذة من كل نوع من أنواع الأسئلة، وكل عينة تحتوي على سياقات بصرية متعددة.
MV-MATH.torrent
البذر 3التنزيل 0مكتمل 31إجمالي التنزيلات 46
  • MV-MATH/
    • README.md
      3.03 KB
    • README.txt
      6.05 KB
      • data/
        • main.zip
          40.82 MB