Command Palette
Search for a command to run...
إعادة تشكيل إطار التعلم بالتعزيز لنموذج اللغة الكبير للانتشار
إعادة تشكيل إطار التعلم بالتعزيز لنموذج اللغة الكبير للانتشار
Yinjie Wang Ling Yang Bowen Li Ye Tian Ke Shen Mengdi Wang
الملخص
نُقدّم "TraceRL"، وهو إطار عمل لتعلم التقييم المُوجّه بالمسار (trajectory-aware reinforcement learning) مُصمم خصيصًا للنماذج اللغوية التوزيعية (DLMs)، والذي يُدمج مسارات الاستنتاج المُفضّلة في مرحلة ما بعد التدريب، ويسري على مختلف الهياكل المعمارية. وباستخدام نموذج قيم مبني على التوزيع (diffusion-based value model) يعزز استقرار التدريب، نُظهر تحسّنًا في الأداء الاستنتاجي على مهام رياضية ومعالجة برمجية معقدة. علاوةً على ذلك، يمكن تطبيقه في تكييف النماذج المخصصة للمجموعات (block-specific) لتتوافق مع كتل أكبر، مما يُحسّن مرونة الاستخلاص (sampling flexibility). وباستخدام TraceRL، نُنتج سلسلة من النماذج اللغوية التوزيعية المُتقدمة، تُعرف بـ "TraDo". وعلى الرغم من أن حجمها أصغر من النماذج ذات الاتجاه التلقائي (AR) بحجم 7B، فإن TraDo-4B-Instruct تتفوّق باستمرار على هذه النماذج في مهام الاستنتاج الرياضي المعقدة. أما TraDo-8B-Instruct، فقد حقق تحسّنًا نسبيًا في الدقة بنسبة 6.1% مقارنة بـ Qwen2.5-7B-Instruct، وبنسبة 51.3% مقارنة بـ Llama3.1-8B-Instruct في معايير الاستدلال الرياضي. وبالاعتماد على تعلم منهجي (curriculum learning)، نُنتج أول نموذج لغوي توزيعي يمتلك سلسلة استنتاجية طويلة (long-CoT)، ويتفوّق على Qwen2.5-7B-Instruct بزيادة نسبية في الدقة بنسبة 18.1% في معيار MATH500. ولتمكين الأبحاث القابلة للتكرار والتطبيقات العملية، نُطلق إطارًا مفتوح المصدر شاملاً لبناء وتدريب ونشر النماذج اللغوية التوزيعية (diffusion LLMs) عبر هياكل معمارية متنوعة. ويضم هذا الإطار تقنيات مُسرّعة لذاكرة التخزين المؤقت (KV-cache) ومحركات استخلاص مُحسّنة لكل من الاستخلاص وتعلم التقييم المُوجّه بالمسار، كما يحتوي على تنفيذات متنوعة لطرق التدريب المراقب (supervised fine-tuning) وطرق التعلم بالتعزيز (RL) مخصصة للمهام الرياضية، والبرمجة، والمهام العامة.الكود والنماذج: https://github.com/Gen-Verse/dLLM-RL