منذ شهر واحد

VCRL: التعلم التدريبي التشاركي القائم على التباين للنماذج اللغوية الكبيرة

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

الملخص

تلعب التعلم القائم على السياسات حاليًا دورًا مهمًا في تحسين نماذج اللغة الكبيرة (LLMs) في مهام الاستدلال الرياضي. ومع ذلك، تفشل الطرق الحالية للتعلم بالتعزيز القائم على التساقط (rollout-based reinforcement learning) مثل GRPO وDAPO وGSPO في أخذ قدرة نماذج اللغة الكبيرة على التعلم من العينات بمستويات صعوبة مختلفة بشكل صريح، وهو ما يتعارض مع العملية الإدراكية البشرية في حل مهام الاستدلال الرياضي، التي تبدأ من السهل إلى الصعب. وبشكل مبكر، لاحظنا أن التباين في مكافأة مجموعة التساقط (rollout group) في RLVR يعكس جزئيًا صعوبة العينة الحالية بالنسبة لنماذج اللغة الكبيرة. فكلما كانت العينة سهلة جدًا أو صعبة جدًا، كان التباين منخفضًا، بينما تكون العينات ذات الصعوبة المتوسطة أكثر تباينًا في المكافأة. استنادًا إلى هذا الملاحظة، نقترح إطار VCRL، وهو إطار لتعلم التسلسل التدريجي (curriculum reinforcement learning) يتحكم ديناميكيًا في صعوبة العينات التدريبية بناءً على تباين مكافآت المجموعة. وأظهرت التجارب على خمسة معايير رياضية ونموذجين مختلفين مزايا VCRL مقارنةً بالأساليب الحالية للتعلم بالتعزيز المبني على نماذج اللغة الكبيرة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

VCRL: التعلم التدريبي التشاركي القائم على التباين للنماذج اللغوية الكبيرة

Guochao Jiang Wenfeng Feng Guofeng Quan Chuzhan Hao Yuewei Zhang Guohua Liu Hao Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters