HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ 4 أيام

تحسين السياسة المتكيفة اللينة

Chang Gao Chujie Zheng Xiong-Hui Chen Kai Dang Shixuan Liu Bowen Yu An Yang Shuai Bai Jingren Zhou Junyang Lin

تحسين السياسة المتكيفة اللينة

الملخص

يلعب التعلم بالتعزيز (RL) دورًا متزايد الأهمية في تحسين قدرات الاستدلال النموذجات اللغوية الكبيرة (LLMs)، ومع ذلك تظل عملية تحسين السياسة المستقرة والفعّالة تحديًا كبيرًا. غالبًا ما تُظهر نسب الأهمية على مستوى الرموز (tokens) تباينًا عاليًا — ظاهرة تتفاقم في النماذج المختلطة من الخبراء (Mixture-of-Experts)، مما يؤدي إلى تحديثات غير مستقرة. تخفف الطرق الحالية لتحسين السياسة القائمة على المجموعات، مثل GSPO وGRPO، من هذه المشكلة من خلال عملية قص صارمة (hard clipping)، مما يجعل من الصعب الحفاظ على الاستقرار والتعلم الفعّال في آنٍ واحد. نقترح طريقة جديدة تُسمى "تحسين السياسة التكيفي الناعم" (SAPO)، التي تُستبدل بها عملية القص الصارمة ببوابة ناعمة تُتحكم بها درجة الحرارة، وتُقلل تلقائيًا من تأثير التحديثات غير المُستندة إلى السياسة (off-policy) مع الحفاظ على الإشارات التعلُّمية المفيدة. مقارنةً بـ GSPO وGRPO، تتميز SAPO بكونها متناسقة على مستوى التسلسل (sequence-coherent) وقابلة للتكيف على مستوى الرموز (token-adaptive). مثل GSPO، تُحافظ SAPO على التماسك على مستوى التسلسل، لكنها تُشكّل منطقة ثقة مستمرة من خلال بوابة ناعمة، مما يُجنبها النطاق الصلب الهش الذي تستخدمه GSPO. عندما يحتوي تسلسل ما على عدد قليل من الرموز ذات سياسة غير مُستندة إلى السياسة (off-policy)، فإن GSPO تُوقف جميع المشتقات الخاصة بهذا التسلسل، بينما تقوم SAPO بتحديد تقليل الوزن فقط للرموز المُخالفة، مع الحفاظ على إشارة التعلُّم من الرموز القريبة من السياسة المُستندة إليها (near-on-policy)، ما يُحسّن كفاءة الاستخدام العيني (sample efficiency). مقارنةً بـ GRPO، تُستبدل SAPO عملية القص الصارمة على مستوى الرموز بعملية تكبير ناعمة تُتحكم بها درجة الحرارة، ما يُمكّن من تحديثات أكثر إفادة واستقرارًا. تُظهر النتائج التجريبية على معايير الاستدلال الرياضي تحسنًا في استقرار التدريب وأداءً أعلى في مقياس Pass@1 ضمن ميزانيات تدريب مماثلة. علاوةً على ذلك، استخدمنا SAPO لتدريب سلسلة نماذج Qwen3-VL، حيث أظهرت النتائج أن SAPO تُحقّق مكاسب أداء متسقة عبر مهام متنوعة وأحجام نماذج مختلفة. في المجمل، تقدّم SAPO استراتيجية تحسين أكثر موثوقية وقابلية للتوسع وفعالية لتدريب النماذج اللغوية الكبيرة باستخدام التعلم بالتعزيز.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين السياسة المتكيفة اللينة | الأوراق البحثية | HyperAI