We-Math 2.0: نظام كتاب رياضيات متعدد الاستخدامات لتحفيز التفكير الرياضي البصري

أظهرت النماذج الكبيرة للغة متعددة الوسائط (MLLMs) قدرات ملحوظة في مجموعة متنوعة من المهام، لكنها ما زالت تواجه صعوبات في التفكير الرياضي المعقد. وتركز الأبحاث الحالية بشكل رئيسي على بناء المجموعات البيانات وتحسين الطرق، غالبًا ما تتجاهل جوانب حاسمة هامتين: التصميم الشامل القائم على المعرفة، ونمذجة فضاء البيانات من منظور النموذج. في هذه الورقة، نقدم نظام We-Math 2.0، وهو نظام موحد يدمج نظام معرفي رياضي منظم، ونمذجة فضاء البيانات من منظور النموذج، ونمط تدريب مبني على التعلم بالتعزيز (RL)، بهدف تعزيز شامل لقدرات النماذج في التفكير الرياضي. تمثل المساهمات الرئيسية لـ We-Math 2.0 أربع محاور رئيسية:(1) نظام المعرفة MathBook: قمنا ببناء نظام هرمي مكون من خمسة مستويات يشمل 491 نقطة معرفية و1,819 مبدأ أساسيًا.(2) مجموعات البيانات MathBook-Standard وMathBook-Pro: طوّرنا MathBook-Standard، وهي مجموعة بيانات تضمن تغطية واسعة للمفاهيم المعرفية والمرونة من خلال التوسع المزدوج. وبالإضافة إلى ذلك، حددنا فضاء صعوبة ثلاثي الأبعاد، وقمنا بإنشاء 7 أشكال متقدمة لكل مسألة لبناء MathBook-Pro، وهي مجموعة بيانات صعبة تُستخدم في التدريب المتماسك.(3) MathBook-RL: اقترحنا إطار عمل مبني على التعلم بالتعزيز ثنائي المراحل، يشمل: (أ) التدريب الدقيق الأولي (Cold-Start Fine-tuning)، الذي يُوجّه النموذج نحو التفكير التسلسلي المبني على المعرفة؛ و(ب) التماثل التدريجي بالتعلم بالتعزيز، الذي يستخدم التعلم القائم على المكافأة المتوسطة وجدولة ديناميكية للبيانات لتحقيق التماثل التدريجي عبر مستويات الصعوبة المختلفة.(4) MathBookEval: قدمنا معيارًا شاملاً يغطي جميع نقاط المعرفة الـ 491، مع توزيعات متنوعة للخطوات التفكيرية. أظهرت النتائج التجريبية أن MathBook-RL يُظهر أداءً تنافسيًا مع النماذج الأساسية الحالية على أربع معايير شائعة الاستخدام، كما حقق نتائج قوية على معيار MathBookEval، ما يشير إلى إمكانات واعدة في التعميم في التفكير الرياضي.