HyperAIHyperAI

Command Palette

Search for a command to run...

ميرايند-إم1: تطور مفتوح المصدر في التفكير الرياضي من خلال تحسين سياسة متعددة المراحل القائم على السياق

الملخص

لقد تطورت نماذج اللغة الكبيرة مؤخرًا من إنشاء النصوص السلسة إلى الاستدلال المتقدم عبر مجالات متنوعة، مما أدى إلى ظهور نماذج لغوية قادرة على الاستدلال. من بين هذه المجالات، يُعد الاستدلال الرياضي معيارًا تمثيليًا، لأنه يتطلب منطقًا متعدد الخطوات بدقة وتفكيرًا مجردًا، ويمكن تعميمه على مهام أخرى. على الرغم من أن نماذج الاستدلال اللغوي المغلقة المصدر مثل GPT-o3 تظهر قدرات استدلال مذهلة، إلا أن طبيعتها الخاصة تحد من الشفافية والقابلية للتكرار. وعلى الرغم من أن العديد من المشاريع المفتوحة المصدر تسعى إلى تضييق هذه الفجوة، إلا أن معظمها تفتقر إلى الشفافية الكافية من خلال إغفال موارد حاسمة مثل المجموعات البيانات وتكوينات التدريب المفصلة، مما يعيق القابلية للتكرار. من أجل المساهمة في تعزيز الشفافية في تطوير نماذج الاستدلال اللغوي، نقدم سلسلة MiroMind-M1، وهي مجموعة من نماذج الاستدلال اللغوي المفتوحة المصدر تمامًا، تم بناؤها على أساس Qwen-2.5، وتتفوق أو تساوي أداء النماذج المفتوحة المصدر الحالية لنموذج الاستدلال اللغوي. بشكل خاص، تم تدريب نماذجنا في مراحلتين: SFT (التدريب المخصص) على مجموعة بيانات مُعدة بعناية تضم 719,000 مشكلة استدلال رياضي ذات مسارات CoT (الاستدلال مع التفسير) المُثبتة، تليها مرحلة RLVR (التدريب المعزز بالتعزيز) على 62,000 مشكلة صعبة وقابلة للتحقق. ولتعزيز متانة وفعالية عملية RLVR، نقدم خوارزمية Policy Optimization متعددة المراحل ذات الوعي بالسياق (Context-Aware Multi-Stage Policy Optimization)، وهي خوارزمية تدمج التدريب التدريجي من حيث الطول مع عقوبة تكرار تكيفية لتشجيع التدريب المعزز بالتعزيز القائم على السياق. تحقق نموذجنا أداءً يصنف ضمن الأفضل في مجاله أو منافسًا، ويعتبر من الأفضل من حيث كفاءة الرموز (token efficiency) بين نماذج Qwen-2.5 المفتوحة المصدر ذات الحجم 7B و32B على معايير AIME24 وAIME25 وMATH. ولتسهيل القابلية للتكرار، نقوم بإطلاق المكدس الكامل: النماذج (MiroMind-M1-SFT-7B، MiroMind-M1-RL-7B، MiroMind-M1-RL-32B)؛ والبيانات (MiroMind-M1-SFT-719K، MiroMind-M1-RL-62K)؛ وجميع تكوينات التدريب والتجربة. نأمل أن تساهم هذه الموارد في دعم الأبحاث المستقبلية وتعزيز التقدم الجماعي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp