HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 21 أيام

RLFR: تمديد التعلم بالتعزيز للنماذج اللغوية الكبيرة مع بيئة التدفق

Jinghao Zhang Naishan Zheng Ruilin Li Dongzhou Cheng Zheming Liang Feng Zhao Jiaqi Wang

RLFR: تمديد التعلم بالتعزيز للنماذج اللغوية الكبيرة مع بيئة التدفق

الملخص

لقد ظهرت مؤخرًا منصة التعلم المعزز ذات المكافآت القابلة للتحقق (RLVR) كإطار واعد لتحسين قدرات الاستدلال في النماذج اللغوية الكبيرة (LLMs). ومع ذلك، فإن السياسات التي تُحسَّن باستخدام التحقق الثنائي قد تتجاهل بشكل متكرر الاستكشاف القيّم المحتمل في مسارات الاستدلال. وبما أن تكلفة التصنيف الدقيقة لنموذج المكافآت المثالية (PRM) مرتفعة جدًا، فقد حاولت الدراسات الحديثة استخدام إشارات مساعدة لتشكيل مكافآت الرموز أثناء المعالجة، وذلك من خلال استخلاص الانتروبيا والاحتمال من فضاء الـ logits. في هذا العمل، نقدم منظورًا جديدًا لتشكيل RLVR باستخدام مكافآت التدفق المستمدة من الفضاء الخفي، ونُقدِّم نموذج RLFR، حيث يتم بناء حقول التدفق الخاصة بالمساحات الخفية للنموذج باستخدام بيانات عالية الجودة من نوع off-policy أو بيانات مُستخرجة عبر عينة الرفض من نوع on-policy، ويتم قياس الانحرافات في السرعة للمساحات الخفية للسياسة ضمن هذه الحقول لاستخدامها كإشارات مكافأة. يُظهر RLFR أولًا أن حقل تدفق مُؤسَّس بشكل جيد يمكن أن يكون بيئة مناسبة لجمع إشارات المكافأة، مما يُبرز أن الفضاء الخفي التعبيري يُستغل بشكل غير كافٍ حتى الآن. علاوةً على ذلك، يمكن لـ RLFR ضغط أي بيانات خبرة خارج السياسة (off-policy) كمرجع لتكوين إشارات المكافأة، ونُظهر أن التبعية الفعّالة للسياق المُضغَطة داخل الحالات المخفية تُستخدم فعلاً في فهم السياق، بدلًا من الاعتماد على الترميز الفردي لكل رمز. وقد أظهرت التجارب على معايير الاستدلال اللغوي والمتعدد الوسائط موثوقية مكافآت التدفق، وتشير إلى نمط واعد لتشكيل المكافآت باستخدام إشارات مساعدة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RLFR: تمديد التعلم بالتعزيز للنماذج اللغوية الكبيرة مع بيئة التدفق | الأوراق البحثية | HyperAI