ميرايند-إم1: تطور مفتوح المصدر في التفكير الرياضي من خلال تحسين سياسة متعددة المراحل القائم على السياق

لقد تطورت نماذج اللغة الكبيرة مؤخرًا من إنشاء النصوص السلسة إلى الاستدلال المتقدم عبر مجالات متنوعة، مما أدى إلى ظهور نماذج لغوية قادرة على الاستدلال. من بين هذه المجالات، يُعد الاستدلال الرياضي معيارًا تمثيليًا، لأنه يتطلب منطقًا متعدد الخطوات بدقة وتفكيرًا مجردًا، ويمكن تعميمه على مهام أخرى. على الرغم من أن نماذج الاستدلال اللغوي المغلقة المصدر مثل GPT-o3 تظهر قدرات استدلال مذهلة، إلا أن طبيعتها الخاصة تحد من الشفافية والقابلية للتكرار. وعلى الرغم من أن العديد من المشاريع المفتوحة المصدر تسعى إلى تضييق هذه الفجوة، إلا أن معظمها تفتقر إلى الشفافية الكافية من خلال إغفال موارد حاسمة مثل المجموعات البيانات وتكوينات التدريب المفصلة، مما يعيق القابلية للتكرار. من أجل المساهمة في تعزيز الشفافية في تطوير نماذج الاستدلال اللغوي، نقدم سلسلة MiroMind-M1، وهي مجموعة من نماذج الاستدلال اللغوي المفتوحة المصدر تمامًا، تم بناؤها على أساس Qwen-2.5، وتتفوق أو تساوي أداء النماذج المفتوحة المصدر الحالية لنموذج الاستدلال اللغوي. بشكل خاص، تم تدريب نماذجنا في مراحلتين: SFT (التدريب المخصص) على مجموعة بيانات مُعدة بعناية تضم 719,000 مشكلة استدلال رياضي ذات مسارات CoT (الاستدلال مع التفسير) المُثبتة، تليها مرحلة RLVR (التدريب المعزز بالتعزيز) على 62,000 مشكلة صعبة وقابلة للتحقق. ولتعزيز متانة وفعالية عملية RLVR، نقدم خوارزمية Policy Optimization متعددة المراحل ذات الوعي بالسياق (Context-Aware Multi-Stage Policy Optimization)، وهي خوارزمية تدمج التدريب التدريجي من حيث الطول مع عقوبة تكرار تكيفية لتشجيع التدريب المعزز بالتعزيز القائم على السياق. تحقق نموذجنا أداءً يصنف ضمن الأفضل في مجاله أو منافسًا، ويعتبر من الأفضل من حيث كفاءة الرموز (token efficiency) بين نماذج Qwen-2.5 المفتوحة المصدر ذات الحجم 7B و32B على معايير AIME24 وAIME25 وMATH. ولتسهيل القابلية للتكرار، نقوم بإطلاق المكدس الكامل: النماذج (MiroMind-M1-SFT-7B، MiroMind-M1-RL-7B، MiroMind-M1-RL-32B)؛ والبيانات (MiroMind-M1-SFT-719K، MiroMind-M1-RL-62K)؛ وجميع تكوينات التدريب والتجربة. نأمل أن تساهم هذه الموارد في دعم الأبحاث المستقبلية وتعزيز التقدم الجماعي.