Command Palette
Search for a command to run...
We-Math 2.0: نظام كتاب رياضي متعدد الاستخدامات لتحفيز التفكير الرياضي البصري
We-Math 2.0: نظام كتاب رياضي متعدد الاستخدامات لتحفيز التفكير الرياضي البصري
Runqi Qiao Qiuna Tan Peiqing Yang Yanzi Wang Xiaowan Wang et al
الملخص
أظهرت النماذج الكبيرة متعددة الوسائط للغة (MLLMs) قدرات مبهرة في مجموعة متنوعة من المهام، لكنها ما زالت تواجه صعوبات في التفكير الرياضي المعقد. يركّز البحث الحالي بشكل رئيسي على بناء المجموعات البيانات وتحسين الطرق، غالبًا ما يتجاهل جوانب حاسمة متمثلة في التصميم الشامل القائم على المعرفة ونمذجة فضاء البيانات من منظور النموذج. في هذه الورقة، نقدّم We-Math 2.0، وهو نظام موحد يدمج نظامًا منظمًا للمعرفة الرياضية، ونمذجة فضاء البيانات من منظور النموذج، ونهجًا تدريبيًا قائماً على التعلم بالتعزيز (RL)، بهدف تعزيز شامل لقدرات النماذج في التفكير الرياضي. تتمثل المساهمات الأساسية لـ We-Math 2.0 في أربعة جوانب رئيسية:
(1) نظام المعرفة MathBook: قمنا ببناء نظام هرمي مكوّن من خمس مستويات، يشمل 491 نقطة معرفية و1819 مبدأ أساسيًا.
(2) مجموعة البيانات MathBook-Standard وMathBook-Pro: طوّرنا MathBook-Standard، وهي مجموعة بيانات تضمن تغطية مفاهيمية واسعة والمرونة من خلال التوسع المزدوج. بالإضافة إلى ذلك، حددنا فضاء صعوبة ثلاثي الأبعاد، وقمنا بإنشاء سبعة أشكال متقدمة لكل مسألة، لبناء MathBook-Pro، وهي مجموعة بيانات صعبة تُستخدم لتدريب نموذج قوي ومستقر.
(3) MathBook-RL: اقترحنا إطارًا ثنائي المراحل للتعلم بالتعزيز يشمل: (أ) التدريب الدقيق الأولي (Cold-Start Fine-tuning)، الذي يُنسق فيه النموذج مع التفكير التسلسلي المبني على المعرفة؛ و(ب) التوافق التدريجي باستخدام التعلم بالعائد المتوسط وجدولة ديناميكية للبيانات، لتحقيق التوافق التدريجي عبر مستويات الصعوبة المختلفة.
(4) MathBookEval: قمنا بإطلاق معيار تقييم شامِل يغطي جميع نقاط المعرفة الـ 491، مع توزيعات متنوعة للخطوات الاستدلالية. أظهرت النتائج التجريبية أن MathBook-RL يتفوّق على النماذج الأساسية في أربع معايير شائعة الاستخدام، ويحقق نتائج قوية في تقييم MathBookEval، مما يشير إلى إمكانات واعدة في التعميم في التفكير الرياضي.