منذ 4 أيام
تحسين سياسة التسلسل الجماعي
Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin

الملخص
تُقدّم هذه المقالة خوارزمية تحسين سياسة التسلسل الجماعي (GSPO)، وهي خوارزمية تعلم التقدير المستقرة والفعّالة والأداء العالي لتدريب نماذج اللغة الكبيرة. على عكس الخوارزميات السابقة التي تعتمد على نسب الأهمية على مستوى الرموز (tokens)، تُعرّف GSPO نسبة الأهمية بناءً على احتمالية التسلسل، وتقوم بقطع التسلسلات (clipping)، وتحفيزها (rewarding)، وتحسينها على مستوى التسلسل. نُظهر أن GSPO تحقق كفاءة وأداءً أفضل مقارنة بخوارزمية GRPO، وخاصةً أنها تُثبّت تدريب التقدير باستخدام مزيج من الخبراء (MoE)، وتُقدّر إمكانية تبسيط تصميم البنية التحتية لتقدير التعلم. وقد ساهمت هذه المزايا في تحسينات ملحوظة في نماذج Qwen3 الأخيرة.