HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 13 أيام

GVPO: تحسين سياسة التباين المجموعة للتدريب اللاحق لنموذج اللغة الكبير

Kaichen Zhang Yuzhong Hong Junwei Bao Hongfei Jiang Yang Song Dingqian Hong Hui Xiong

GVPO: تحسين سياسة التباين المجموعة للتدريب اللاحق لنموذج اللغة الكبير

الملخص

تلعب التدريب اللاحق دورًا حاسمًا في تحسين نماذج اللغة الكبيرة وتوحيدها لتناسب مهام محددة وتفضيلات البشر. وعلى الرغم من التطورات الحديثة في تقنيات التدريب اللاحق، مثل خوارزمية تحسين السياسة النسبية المجموعة (GRPO)، التي تستخدم عينات متعددة مع تقييم مكافأة نسبية لتحقيق أداء متفوق، فإن هذه الطرق غالبًا ما تعاني من عدم استقرار في التدريب، ما يحد من اعتمادها عمليًا. كخطوة تالية، نقدم خوارزمية تحسين السياسة المجموعة المُتَنَوِّعة (GVPO). تُدمج GVPO الحل التحليلي لمشكلة تحسين المكافأة المُقيدة بقيمة التباعد كولب-ليبلر (KL) مباشرة في أوزان التدرج، مما يضمن التوافق مع السياسة المثلى. وتتميز هذه الطريقة بتأويلات فيزيائية واضحة: حيث يُشبه تدرجها متوسط مربع الفرق بين المسافة المركزية للمكافآت الضمنية والمسافة المركزية للمكافآت الفعلية. وتقدم GVPO ميزتين رئيسيتين: (1) تضمن حلًا مثاليًا فريدًا، وهو بالضبط الهدف المتمثل في تحسين المكافأة المُقيدة بقيمة KL، (2) تدعم توزيعات عينات مرنة، مما يتجنب قيود التعلم على السياسة (on-policy) والعينة المهمة (importance sampling). وبتوحيدها بين الضمانات النظرية والمرونة التطبيقية، تُشكّل GVPO منهجًا جديدًا لتدريب نماذج لغة كبيرة موثوقًا ومرنًا.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GVPO: تحسين سياسة التباين المجموعة للتدريب اللاحق لنموذج اللغة الكبير | الأوراق البحثية | HyperAI