Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

الملخص
نموذج المكافآت العملياتية (PRMs) التي توفر تغذية راجعة كثيفة على مستوى الخطوات قد أظهرت إمكانات كبيرة في التعلم المعزز، ومع ذلك فإن اعتمادها لا يزال محدودًا بسبب الحاجة إلى تسميات خطوة بخطوة باهظة التكلفة أو إلى مراجع حقيقية (ground truth). نقترح إطار عمل SPARK: إطار ثلاثي المراحل، حيث في المرحلة الأولى، يقوم نموذج المُولِّد بإنتاج حلول متنوعة، ويقوم نموذج المُحقِّق بتقييمها باستخدام التوسع المتوازي (الاتساق الذاتي) والتوسع التسلسلي (النقد الميتا). وفي المرحلة الثانية، نستخدم هذه النتائج التحققية كبيانات تدريب اصطناعية لتحسين نماذج مكافآت العمليات التوليدية، والتي تُستخدم لاحقًا كإشارات مكافأة أثناء التدريب. نُظهر أن تجميع عدة تحققات مستقلة على مستوى الخطوات يُنتج بيانات تدريب لنموذج مكافآت العمليات تفوق التدريب القائم على المخرجات الحقيقية، حيث حقق أداءً بنسبة 67.5 في مؤشر F1 على معيار ProcessBench (المعيار المخصص لتحديد الخطوات الخاطئة في الاستدلال الرياضي)، متفوّقًا على التدريب الموجه بالمرجع (66.4) وعلى نموذج GPT-4o (61.9). وفي المرحلة النهائية، نطبّق نموذج مكافآت العمليات التوليدية لدينا مع التحقق بالسياق التفكيري (PRM-CoT) كنموذج مكافأة في تجارب التعلم المعزز على الاستدلال الرياضي، ونُدخل قيودًا على التنسيق لمنع التلاعب بالمكافأة (reward hacking). وباستخدام نموذج Qwen2.5-Math-7B، حققنا دقة متوسطة بلغت 47.4٪ عبر ستة معايير للاستدلال الرياضي، متفوّقًا على طريقة RLVR القائمة على المخرجات الحقيقية (43.9٪). إن عملنا يُمكّن من التدريب المعزز بدون الحاجة إلى مراجع، ويتجاوز الأداء المُحقّق بالطرق القائمة على المخرجات الحقيقية، مما يفتح آفاقًا جديدة للمناهج التي لا تتوفر فيها إجابات قابلة للتحقق أو مراجع حقيقية متاحة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.