HyperAIHyperAI

Command Palette

Search for a command to run...

ReasonFlux-PRM: نماذج التمثيل الروبوتي المعرفية للمسارات لدعم الاستدلال ذي السلسلة الطويلة في النماذج اللغوية الكبيرة

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

الملخص

نماذج المكافآت العملية (PRMs) ظهرت مؤخرًا كإطار قوي لرقابة خطوات التفكير الوسيطة في النماذج اللغوية الكبيرة (LLMs). كانت النماذج السابقة من PRMs تُدرب بشكل أساسي على réponses الخروجية النهائية للنموذج وتواجه صعوبة في تقييم مسارات التفكير الوسيطة بثبات، خاصة في السياق الناشئ للمسارات-الRéponses الخروجية التي تولدها نماذج التفكير الرائدة مثل Deepseek-R1. في هذا العمل، نقدم ReasonFlux-PRM، وهو إطار PRM جديد يُصمم صراحة لتقييم أثر المسارات-الRéponses من نوع آثار التفكير. يدمج ReasonFlux-PRM الإشراف على مستوى الخطوة وعلى مستوى المسار معًا، مما يمكنه من تعيين مكافآت دقيقة ومتناسقة مع بيانات سلسلة الأفكار المنظمة. نكيف ReasonFlux-PRM لدعم الإشراف بالمكافآت في كل من الإعدادات الطرفية والمتصلة، بما في ذلك (i) اختيار بيانات التقطير عالية الجودة للتدريب الدقيق المشرف عليه لاحقًا لنماذج أصغر، (ii) توفير مكافآت كثيفة على مستوى العملية لتحسين السياسة أثناء التعلم التعزيزي، و(iii) تمكين توسيع زمن الاختبار المستند إلى المكافأة من نوع Best-of-N. تظهر النتائج التجريبية على مقاييس الأداء الصعبة مثل AIME و MATH500 و GPQA-Diamond أن ReasonFlux-PRM-7B يختار بيانات أعلى جودة من نماذج PRM القوية (مثل Qwen2.5-Math-PRM-72B) ومن الخطوط الأساسية التي يحددها البشر. علاوة على ذلك، فإن نموذج ReasonFlux-PRM-7B المشتق لدينا يحقق تحسينات أداء مستقرة بمتوسط زيادة قدرها 12.1% في التدريب الدقيق المشرف عليه، 4.5% في التعلم التعزيزي، و 6.3% في توسيع زمن الاختبار. كما نقوم بإصدار نموذجنا الفعال ReasonFlux-PRM-1.5B للأغراض ذات الموارد المحدودة وللنشر الحوافِي.ملاحظة: تم استخدام الكلمة الفرنسية "réponses" لأنها ليست شائعة في العربية ضمن هذا السياق العلمي والتكنولوجي، وقد تكون أكثر دقة أو فهماً للمتخصصين.Projects: https://github.com/Gen-Verse/ReasonFluxفي هذه الفقرة الأخيرة "Projects"، قد يكون أفضل تقديمها باللغة الإنجليزية كما هي لأنها رابط إلكتروني ويتم عادةً ترك الروابط دون ترجمة.تصحيح وإعادة صياغة بعض الجمل:نماذج المكافآت العملية (Process Reward Models - PRMs) ظهرت مؤخرًا كإطار قوي لرقابة خطوات التفكير الوسيطة في النماذج اللغوية الكبيرة (Large Language Models - LLMs). كانت النماذج السابقة من PRMs تُدرب بشكل أساسي على الاستجابات الخروجية النهائية للنموذج وتواجه صعوبة في تقييم مسارات التفكير الوسيطة بثبات، خاصة في السياق الناشئ للمسارات والاستجابات التي تولدها نماذج التفكير الرائدة مثل Deepseek-R1. في هذا البحث، نقدم ReasonFlux-PRM، وهو إطار PRM جديد يُصمم صراحة لتقييم آثار التفكير من نوع المسارات والاستجابات. يدمج ReasonFlux-PRM الإشراف على مستوى الخطوة وعلى مستوى المسار معًا، مما يمكنه من تعيين مكافآت دقيقة ومتناسقة مع بيانات سلسلة الأفكار المنظمة. نكيف ReasonFlux-PRM لدعم الإشراف بالمكافآت في كل من الإعدادات الطرفية والمتصلة، بما في ذلك (i) اختيار بيانات التقطير عالية الجودة للتدريب الدقيق المشرف عليه لاحقًا لنماذج أصغر، (ii) توفير مكافآت كثيفة على مستوى العملية لتحسين السياسة أثناء التعلم التعزيزي، و(iii) تمكين توسيع زمن الاختبار المستند إلى المكافأة من نوع Best-of-N. تظهر النتائج التجريبية على مقاييس الأداء الصعبة مثل AIME و MATH500 و GPQA-Diamond أن ReasonFlux-PRM-7B يختار بيانات أعلى جودة من نماذج PRM القوية (مثل Qwen2.5-Math-PRM-72B) ومن الخطوط الأساسية التي يحددها البشر. علاوة على ذلك,نموذج ReasonFlux-PRM-7B المشتق لدينا حقق تحسينات أداء مستقرة بمتوسط زيادة قدرها 12.1% في التدريب الدقيق المشرف عليه,4.5% في التعلم التعزيزي,و 6.3% في توسيع زمن الاختبار。كما قمنا بإصدار نموذجنا الفعال ReasonFlux-PRM-1.5B للأغراض ذات الموارد المحدودة وللنشر الحوافي。رابط المشروع:https://github.com/Gen-Verse/ReasonFlux


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ReasonFlux-PRM: نماذج التمثيل الروبوتي المعرفية للمسارات لدعم الاستدلال ذي السلسلة الطويلة في النماذج اللغوية الكبيرة | مستندات | HyperAI