(reasonFlux-PRM): نموذج مكافآت جديد يعزز التفكير المنطقي في نماذج اللغات الكبيرة عبر تقييم المسارات الوسيطة والخطوة بخطوة
ReasonFlux-PRM: نموذج تعويض مُدرَك للمسارات لتعزيز التفكير المنطقي في النماذج اللغوية الكبيرة فهم دور التفكير السلسكي في النماذج اللغوية الكبيرة (LLMs) تزايد استخدام النماذج اللغوية الكبيرة (LLMs) في حل المهام المعقدة مثل الرياضيات والتفكير العلمي من خلال نهج التفكير السلسكي (Chain-of-Thought). بدلاً من القفز مباشرة إلى الإجابة النهائية، تقوم هذه النماذج بالتفكير عبر خطوات وسيطة تحاكي العمليات المنطقية. هذا الأسلوب يسمح بتحسين دقة التفكير وتتبع الأخطاء بشكل أوضح. مع تطور هذه النماذج، أصبح من الضروري تقييم الخطوات الوسيطة التي أدت إلى الإجابات النهائية وليس فقط الإجابات النهائية. حدود النماذج التقليدية لتعويض العملية (PRMs) في تقييم التفكير من المشاكل المُلحَّة أن معظم النماذج الحالية لتعويض العملية (PRMs) تقتصر على تقييم الإجابات النهائية فقط، مما يتجاهل كيفية الوصول إلى تلك الاستنتاجات. ومع ذلك، فإن النماذج الرائدة مثل Deepseek-R1 تنتج مسارات تفكير مطولة قبل تقديم الإجابات النهائية. يتم إعادة استخدام هذه المسارات-الردود لتدريب نماذج أصغر. المشكلة تكمن في أن النماذج الحالية لتعويض العملية ليست مصممة لتقييم هذه المسارات الكاملة. هذا الفجوة يؤدي إلى إشراف غير موثوق به يمكن أن يقلل من أداء النماذج الأصغر المدربة على بيانات المسارات-الردود. تحديات التعامل مع سلاسل التفكير غير المنظمة النماذج التقليدية لتعويض العملية مُعَدَّة أساساً للنتائج المُنظَّمة والنظيفة، وليس للمسارات الطويلة وأحياناً غير المنظمة التي تنتجها النماذج اللغوية المتقدمة. حتى النماذج المتطورة مثل Qwen2.5-Math-PRM-72B تظهر قدرة محدودة على التمييز بين التفكير الوسيطي عالي الجودة والمنخفض الجودة. عند تطبيقها على بيانات المسارات-الردود من Gemini أو Deepseek-R1، غالباً ما تنتج هذه النماذج نقاط تعويض مُتداخلة، مما يشير إلى ضعف التمييز. هذا يُؤدي إلى اختيار بيانات سيء لتحسين النماذج في المراحل اللاحقة، وقد أكدت التجارب أن النماذج المدربة على بيانات مختارة بواسطة PRMs تُحقق أداءً أسوأ من تلك المدربة على بيانات مُراجعة من البشر. تقديم ReasonFlux-PRM للإشراف على مستوى المسارات قدم باحثون من جامعة إلينوي في أوربانا شامبين (UIUC)، جامعة برينستون، جامعة كورنيل، وشركة ByteDance Seed نموذج ReasonFlux-PRM. يُعتبر هذا النموذج مُدرَكاً للمسارات حيث يقوم بتقييم كل خطوة وسيطة في المسار وفقاً لمساهمتها في الإجابة النهائية. يدمج النموذج التقييم على مستوى الخطوات وعلى مستوى المسارات، مما يتيح فهمًا أكثر دقةً لجودة التفكير. تم تدريب ReasonFlux-PRM على مجموعة بيانات مكونة من 10,000 عينة من المشكلات الرياضية والعلمية التي تم جمعها بعناية لتعكس الصيغ الحقيقية للمسارات-الردود. الإطار الفني لـ ReasonFlux-PRM يعمل ReasonFlux-PRM فنياً عن طريق تقييم كل خطوة وسيطة في المسار بناءً على مساهمتها في الإجابة النهائية. يستخدم دالة تعويض مرجعية تأخذ بعين الاعتبار الدعوة، الخطوات السابقة للتفكير، والإجابة النهائية لإسناد نقاط تقييم لكل خطوة. يتم بعد ذلك تجميع هذه النقاط لإنتاج مكافأة إجمالية للمسار. يدعم النموذج تطبيقات متعددة، بما في ذلك تصفية البيانات التدريبية عالية الجودة، توفير مكافآت كثيفة أثناء التعلم الذاتي باستخدام تحسين السياسة القائمة على GRPO، واختيار أفضل رد من N ردود في وقت الاختبار لتحسين جودة الاستدلال. هذه القدرات تجعل ReasonFlux-PRM أكثر مرونة وشمولية من النماذج السابقة. النتائج التجريبية على مقاييس التفكير في تقييمات الأداء عبر مهام مثل AIME، MATH500، وGPQA-Diamond، حقق نموذج ReasonFlux-PRM-7B تحسنات ملحوظة على عدة مقاييس مقارنة بنموذج Qwen2.5-Math-PRM-72B والبيانات المُراجعة من البشر. تحديداً، حقق نموذج ReasonFlux-PRM-7B زيادة في الدقة بنسبة 12.1% في التحسين المُشرف عليه، 4.5% أثناء التعلم الذاتي، و6.3% أثناء تدرج الوقت الاختباري. هذه التحسينات كبيرة خاصة نظرًا لأن ReasonFlux-PRM أصغر في حجم النموذج. تظهر الجدول 1 أن نموذج Qwen2.5-14B-Instruct، عندما تم تدريبه على البيانات المختارة بواسطة ReasonFlux-PRM، حقق مستويات أداء قريبة أو تفوق على مستويات المعايير المُراجعة من البشر. في المقابل، أدى استخدام نماذج PRM الأخرى إلى انخفاضات كبيرة تصل إلى 26.6% في بعض المقاييس. التأثير والاتجاه المستقبلي لـ ReasonFlux-PRM تُخاطب هذه الدراسة تحدياً حاسماً في تدريب وتقييم النماذج الحديثة للتفكير. من خلال تمكين الإشراف على مستويات التفكير والردود النهائية، يُعزز ReasonFlux-PRM جودة البيانات التدريبية وموثوقية ردود النماذج. يحدد هذا البحث اتجاهاً جديداً لتقدير وتحسين عمليات التفكير في النماذج الكبيرة بشكل منهجي. تقييم الحدث من قبل المختصين المتخصصون في مجال التعلم العميق والذكاء الاصطناعي يرون أن ReasonFlux-PRM يمثل خطوة مهمة نحو تقييم أكثر دقةً وشموليةً للتفكير في النماذج اللغوية الكبيرة. يعد هذا النموذج أداة قيمة للأبحاث المستقبلية في تحسين جودة التدريب وتتبع الأخطاء، مما يساهم في تطوير نماذج أكثر فعالية وموثوقية. نبذة تعريفية عن الشركات المشاركة شمل هذا المشروع جهودًا من عدة مؤسسات رائدة في المجال العلمي والتكنولوجي. جامعة إلينوي في أوربانا شامبين (UIUC) هي واحدة من أفضل الجامعات الأمريكية في مجال العلوم الحاسوبية. جامعة برينستون وجامعة كورنيل هما من بين أعرق الجامعات الأمريكية وتتميزان ببرامج بحثية متميزة. شركة ByteDance Seed، التي تنتمي إلى مجموعة ByteDance المالكة لتطبيق TikTok، تركز على تطوير تقنيات الذكاء الاصطناعي المبتكرة. هذه الشراكة بين المؤسسات الأكاديمية والشركات التكنولوجية تعكس التوجه العالمي نحو تحسين النماذج اللغوية الكبيرة من خلال التعاون متعدد التخصصات.