ReasonFlux-PRM: نماذج التمثيل الروبوتي المعرفية للمسارات لدعم الاستدلال ذي السلسلة الطويلة في النماذج اللغوية الكبيرة

نماذج المكافآت العملية (PRMs) ظهرت مؤخرًا كإطار قوي لرقابة خطوات التفكير الوسيطة في النماذج اللغوية الكبيرة (LLMs). كانت النماذج السابقة من PRMs تُدرب بشكل أساسي على réponses الخروجية النهائية للنموذج وتواجه صعوبة في تقييم مسارات التفكير الوسيطة بثبات، خاصة في السياق الناشئ للمسارات-الRéponses الخروجية التي تولدها نماذج التفكير الرائدة مثل Deepseek-R1. في هذا العمل، نقدم ReasonFlux-PRM، وهو إطار PRM جديد يُصمم صراحة لتقييم أثر المسارات-الRéponses من نوع آثار التفكير. يدمج ReasonFlux-PRM الإشراف على مستوى الخطوة وعلى مستوى المسار معًا، مما يمكنه من تعيين مكافآت دقيقة ومتناسقة مع بيانات سلسلة الأفكار المنظمة. نكيف ReasonFlux-PRM لدعم الإشراف بالمكافآت في كل من الإعدادات الطرفية والمتصلة، بما في ذلك (i) اختيار بيانات التقطير عالية الجودة للتدريب الدقيق المشرف عليه لاحقًا لنماذج أصغر، (ii) توفير مكافآت كثيفة على مستوى العملية لتحسين السياسة أثناء التعلم التعزيزي، و(iii) تمكين توسيع زمن الاختبار المستند إلى المكافأة من نوع Best-of-N. تظهر النتائج التجريبية على مقاييس الأداء الصعبة مثل AIME و MATH500 و GPQA-Diamond أن ReasonFlux-PRM-7B يختار بيانات أعلى جودة من نماذج PRM القوية (مثل Qwen2.5-Math-PRM-72B) ومن الخطوط الأساسية التي يحددها البشر. علاوة على ذلك، فإن نموذج ReasonFlux-PRM-7B المشتق لدينا يحقق تحسينات أداء مستقرة بمتوسط زيادة قدرها 12.1% في التدريب الدقيق المشرف عليه، 4.5% في التعلم التعزيزي، و 6.3% في توسيع زمن الاختبار. كما نقوم بإصدار نموذجنا الفعال ReasonFlux-PRM-1.5B للأغراض ذات الموارد المحدودة وللنشر الحوافِي.ملاحظة: تم استخدام الكلمة الفرنسية "réponses" لأنها ليست شائعة في العربية ضمن هذا السياق العلمي والتكنولوجي، وقد تكون أكثر دقة أو فهماً للمتخصصين.Projects: https://github.com/Gen-Verse/ReasonFluxفي هذه الفقرة الأخيرة "Projects"، قد يكون أفضل تقديمها باللغة الإنجليزية كما هي لأنها رابط إلكتروني ويتم عادةً ترك الروابط دون ترجمة.تصحيح وإعادة صياغة بعض الجمل:نماذج المكافآت العملية (Process Reward Models - PRMs) ظهرت مؤخرًا كإطار قوي لرقابة خطوات التفكير الوسيطة في النماذج اللغوية الكبيرة (Large Language Models - LLMs). كانت النماذج السابقة من PRMs تُدرب بشكل أساسي على الاستجابات الخروجية النهائية للنموذج وتواجه صعوبة في تقييم مسارات التفكير الوسيطة بثبات، خاصة في السياق الناشئ للمسارات والاستجابات التي تولدها نماذج التفكير الرائدة مثل Deepseek-R1. في هذا البحث، نقدم ReasonFlux-PRM، وهو إطار PRM جديد يُصمم صراحة لتقييم آثار التفكير من نوع المسارات والاستجابات. يدمج ReasonFlux-PRM الإشراف على مستوى الخطوة وعلى مستوى المسار معًا، مما يمكنه من تعيين مكافآت دقيقة ومتناسقة مع بيانات سلسلة الأفكار المنظمة. نكيف ReasonFlux-PRM لدعم الإشراف بالمكافآت في كل من الإعدادات الطرفية والمتصلة، بما في ذلك (i) اختيار بيانات التقطير عالية الجودة للتدريب الدقيق المشرف عليه لاحقًا لنماذج أصغر، (ii) توفير مكافآت كثيفة على مستوى العملية لتحسين السياسة أثناء التعلم التعزيزي، و(iii) تمكين توسيع زمن الاختبار المستند إلى المكافأة من نوع Best-of-N. تظهر النتائج التجريبية على مقاييس الأداء الصعبة مثل AIME و MATH500 و GPQA-Diamond أن ReasonFlux-PRM-7B يختار بيانات أعلى جودة من نماذج PRM القوية (مثل Qwen2.5-Math-PRM-72B) ومن الخطوط الأساسية التي يحددها البشر. علاوة على ذلك,نموذج ReasonFlux-PRM-7B المشتق لدينا حقق تحسينات أداء مستقرة بمتوسط زيادة قدرها 12.1% في التدريب الدقيق المشرف عليه,4.5% في التعلم التعزيزي,و 6.3% في توسيع زمن الاختبار。كما قمنا بإصدار نموذجنا الفعال ReasonFlux-PRM-1.5B للأغراض ذات الموارد المحدودة وللنشر الحوافي。رابط المشروع:https://github.com/Gen-Verse/ReasonFlux