突破强化学习训练瓶颈:BroRL通过扩展rollout实现性能飞跃
في تجربة لتجاوز الحدود التقليدية لتدريب النماذج اللغوية الكبيرة باستخدام التعلم بالتعزيز من مكافآت قابلة للتحقق (RLVR)، أقدمت فرق البحث في NVIDIA نموذجًا جديدًا يُعرف بـ "Broadened Reinforcement Learning" (BroRL)، الذي يُعدّ تطورًا جوهريًا في فهم كيفية تحسين الأداء عبر التوسع في الاستكشاف. فبينما سبق أن أظهرت تقنية "ProRL" أن التدريب لفترة أطول يمكن أن يوسع قدرات التفكير في النماذج، إلا أن الأداء واجه توقفًا مفاجئًا بعد آلاف الخطوات، مع تدهور ملحوظ في الأداء. وقد ظنّ الكثيرون أن هذا التوقف يمثل حدودًا جوهرية للتعلم بالتعزيز، لكن BroRL تُظهر أن السبب الحقيقي هو محدودية استراتيجية الاستكشاف، لا قدرة النموذج. الحل الجديد يعتمد على "التوسع في عدد المسارات الاستكشافية" (rollout scaling) بدلًا من التوسع في طول التدريب. بدلًا من استخدام 16 مسارًا استكشافيًا لكل سؤال (كما في ProRL)، يُستخدم BroRL ما يقارب 512 مسارًا لكل مدخل. هذا التوسع يُقلل من الضوضاء الناتجة عن المسارات غير المستكشَفة، ويُعزز الإشارة الإيجابية من المسارات الناجحة، مما يُحدث توازنًا ديناميكيًا يُشجع النموذج على التقدم المستمر، حتى بعد توقفه السابق. النتائج تُظهر تفوقًا واضحًا: عند تطبيق BroRL على نموذج ProRLv2 الذي وصل إلى حالة توقف بعد 3000 خطوة، سجل النموذج تحسنًا مستمرًا في اختبارات التفكير الرياضي والبرمجة، وتجاوز الأداء الأقصى السابق في جميع المعايير. بعد 98.1 ساعة فقط، حقق BroRL أداءً أفضل من ProRL الذي استغرق 393.9 ساعة، مع تحسينات تصل إلى 1.64 نقطة في الرياضيات و3.9 نقطة في البرمجة، وباستخدام عدد أقل من الرموز (tokens)، ما يدل على كفاءة أعلى في استخدام الموارد. أيضًا، أظهر BroRL كفاءة محسّنة في استخدام الحوسبة، حيث تُنتج نتائج دقيقة بمسارات أكثر إيجازًا، وتقلل من التكرار والتفصيل الزائد في الاستنتاجات. هذا يُظهر أن جودة التفكير لا تعتمد على طول الرد، بل على جودة الاستكشاف. بفضل هذه النتائج، يُعتبر النموذج المدرب بـ BroRL، الذي يضم 1.5 مليار معامل، الأفضل في فئته على معايير مثل Math، Code، وReasoning Gym، ويُثبت أن التوسع في عدد المسارات الاستكشافية هو محور فعّال لتحسين التعلم بالتعزيز، أكثر من مجرد التوسع في الوقت أو عدد الخطوات. الرسالة الأساسية: عندما يواجه النموذج حائطًا، لا يكفي التقدم أكثر، بل يجب التوسع في الاستكشاف. BroRL يُقدّم نموذجًا مبدعًا وفعّالًا لتحقيق هذا التوسع، ويُعدّ خطوة جوهرية نحو تطوير نماذج لغوية أذكى وأكثر كفاءة. يمكن الاطلاع على النموذج وتجريبه عبر منصة Hugging Face.