GVPO: تحسين سياسة التباين المجموعة للتدريب اللاحق لنموذج اللغة الكبير
Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

الملخص
تلعب التدريب اللاحق دورًا حاسمًا في تحسين نماذج اللغة الكبيرة وتوحيدها لتناسب مهام محددة وتفضيلات البشر. وعلى الرغم من التطورات الحديثة في تقنيات التدريب اللاحق، مثل خوارزمية تحسين السياسة النسبية المجموعة (GRPO)، التي تستخدم عينات متعددة مع تقييم مكافأة نسبية لتحقيق أداء متفوق، فإن هذه الطرق غالبًا ما تعاني من عدم استقرار في التدريب، ما يحد من اعتمادها عمليًا. كخطوة تالية، نقدم خوارزمية تحسين السياسة المجموعة المُتَنَوِّعة (GVPO). تُدمج GVPO الحل التحليلي لمشكلة تحسين المكافأة المُقيدة بقيمة التباعد كولب-ليبلر (KL) مباشرة في أوزان التدرج، مما يضمن التوافق مع السياسة المثلى. وتتميز هذه الطريقة بتأويلات فيزيائية واضحة: حيث يُشبه تدرجها متوسط مربع الفرق بين المسافة المركزية للمكافآت الضمنية والمسافة المركزية للمكافآت الفعلية. وتقدم GVPO ميزتين رئيسيتين: (1) تضمن حلًا مثاليًا فريدًا، وهو بالضبط الهدف المتمثل في تحسين المكافأة المُقيدة بقيمة KL، (2) تدعم توزيعات عينات مرنة، مما يتجنب قيود التعلم على السياسة (on-policy) والعينة المهمة (importance sampling). وبتوحيدها بين الضمانات النظرية والمرونة التطبيقية، تُشكّل GVPO منهجًا جديدًا لتدريب نماذج لغة كبيرة موثوقًا ومرنًا.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.