Command Palette
Search for a command to run...

الملخص
نُقدِّم نموذج rStar2-Agent، وهو نموذج لاستنتاج الرياضيات بحجم 14 بيليون معلمة، تم تدريبه باستخدام التعلم التقييمي الواعي (agentic reinforcement learning) لتحقيق أداءً يُعد من أرقى المستويات. وبخلاف الحلول التقليدية الطويلة لسلسلة التفكير (long CoT)، يُظهر النموذج سلوكًا ذهنيًا متقدمًا، مثل التفكير الدقيق قبل استخدام أدوات البرمجة بلغة بايثون، والتأمل في ردود أفعال تنفيذ الكود لاستكشاف وتحقق وتحسين خطوات وسيطة بشكل مستقل أثناء حل المشكلات المعقدة. وتُمكّن هذه القدرة ثلاث ابتكارات رئيسية من جعل التعلم التقييمي الواعي فعّالًا على نطاق واسع: (1) بنية تعليمية تقييمية فعّالة تُوفّر بيئة موثوقة للكود بلغة بايثون، وتدعم التنفيذ عالي الكفاءة وتقلل من تكاليف التوسع (rollout)، ما يتيح التدريب على موارد GPU محدودة (64 وحدة MI300X)؛ (2) خوارزمية التعلم التقييمي الواعي GRPO-RoC، التي تعتمد على استراتيجية إعادة العينة عند التصحيح (Resample-on-Correct) لمعالجة الضوضاء الطارئة الناتجة عن أدوات البرمجة، ما يمكّن النموذج من التفكير بكفاءة أكبر في بيئة الكود؛ (3) وصفة تدريب فعّالة للوكيل تبدأ بتدريب غير استنتاجي (SFT) ثم تنتقل عبر مراحل متعددة من التعلم التقييمي، مما يُنتج قدرات ذهنية متقدمة بتكلفة حوسبة منخفضة جدًا. وبهذا، يُحسّن rStar2-Agent نموذجًا مُدرّبًا مسبقًا بحجم 14 بيليون معلمة ليصل إلى مستوى متقدم جدًا خلال 510 خطوات تقييمية فقط في غضون أسبوع واحد، ويحقق متوسط درجات نجاح (pass@1) بلغ 80.6% على AIME24 و69.8% على AIME25، متفوقًا على DeepSeek-R1 (671 بيليون معلمة) مع استجابات أقصر بشكل كبير. وبالإضافة إلى الرياضيات، يُظهر نموذج rStar2-Agent-14B أيضًا قدرة قوية على التعميم في مهام التوافق (alignment)، والاستنتاج العلمي، واستخدام الأدوات الواعية. يمكن الاطلاع على الكود ووصفات التدريب عبر الرابط: https://github.com/microsoft/rStar.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.