Command Palette
Search for a command to run...
VCRL: التعلم التدريبي التشاركي القائم على التباين للنماذج اللغوية الكبيرة
VCRL: التعلم التدريبي التشاركي القائم على التباين للنماذج اللغوية الكبيرة
Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang
الملخص
تلعب التعلم القائم على السياسات حاليًا دورًا مهمًا في تحسين نماذج اللغة الكبيرة (LLMs) في مهام الاستدلال الرياضي. ومع ذلك، تفشل الطرق الحالية للتعلم بالتعزيز القائم على التساقط (rollout-based reinforcement learning) مثل GRPO وDAPO وGSPO في أخذ قدرة نماذج اللغة الكبيرة على التعلم من العينات بمستويات صعوبة مختلفة بشكل صريح، وهو ما يتعارض مع العملية الإدراكية البشرية في حل مهام الاستدلال الرياضي، التي تبدأ من السهل إلى الصعب. وبشكل مبكر، لاحظنا أن التباين في مكافأة مجموعة التساقط (rollout group) في RLVR يعكس جزئيًا صعوبة العينة الحالية بالنسبة لنماذج اللغة الكبيرة. فكلما كانت العينة سهلة جدًا أو صعبة جدًا، كان التباين منخفضًا، بينما تكون العينات ذات الصعوبة المتوسطة أكثر تباينًا في المكافأة. استنادًا إلى هذا الملاحظة، نقترح إطار VCRL، وهو إطار لتعلم التسلسل التدريجي (curriculum reinforcement learning) يتحكم ديناميكيًا في صعوبة العينات التدريبية بناءً على تباين مكافآت المجموعة. وأظهرت التجارب على خمسة معايير رياضية ونموذجين مختلفين مزايا VCRL مقارنةً بالأساليب الحالية للتعلم بالتعزيز المبني على نماذج اللغة الكبيرة.