HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 15 أيام

SofT-GRPO: تفوق التعلم بالتحفيز للنماذج اللغوية الكبيرة ذات الرموز المنفصلة من خلال تحسين السياسة بالتفكير اللين المعاد صياغته باستخدام جومبل

Zhi Zheng Wee Sun Lee

SofT-GRPO: تفوق التعلم بالتحفيز للنماذج اللغوية الكبيرة ذات الرموز المنفصلة من خلال تحسين السياسة بالتفكير اللين المعاد صياغته باستخدام جومبل

الملخص

يمكن للنمط الناعم للتفكير في نماذج اللغة الكبيرة (LLM) أن يتفوق على نمط التفكير المتسلسل بالرموز المنفصلة (CoT) التقليدي في بعض السياقات، مما يبرز قيمته البحثية والتطبيقية. ومع ذلك، رغم أن نمط التفكير المتسلسل بالرموز المنفصلة يمكن تعزيزه باستخدام خوارزميات تحسين السياسات مثل خوارزمية تحسين السياسة النسبية المجموعة (GRPO)، فإن تمديد نمط التفكير الناعم باستخدام التعلم بالتعزيز (RL) ما زال يشكل تحديًا كبيرًا. ويعود هذا التحدي إلى التعقيدات المرتبطة بإدخال العشوائية إلى الرموز الناعمة وتحديث سياسات التفكير الناعم وفقًا لذلك. ونتيجة لذلك، كانت المحاولات السابقة لدمج التفكير الناعم مع GRPO غالبًا ما تُظهر أداءً أضعف مقارنةً بنسخها المبنية على الرموز المنفصلة. ولإطلاق الإمكانات الكاملة للتفكير الناعم، تقدم هذه الورقة خوارزمية جديدة لتحسين السياسات تُسمى SofT-GRPO، لتعزيز نماذج LLM تحت نمط التفكير الناعم. تُضخ SofT-GRPO ضجيج جومبل (Gumbel) في القيم اللوجية (logits)، وتستخدم تقنية جومبل-سُوفتْماكس (Gumbel-Softmax) لتجنب ظهور رموز التفكير الناعم خارج فضاء التمثيل المُدرَّب مسبقًا، كما تُستخدَم تقنية إعادة التمثيل (reparameterization trick) في تدرج السياسات. أجرينا تجارب على نماذج LLM الأساسية التي تتراوح أبعادها بين 1.5 مليار و7 مليارات معلمة، وأظهرت النتائج أن SofT-GRPO تُمكّن نماذج LLM القائمة على التفكير الناعم من التفوق قليلاً على نسخ GRPO القائمة على الرموز المنفصلة من حيث مؤشر Pass@1 (بمتوسط تحسن بنسبة 0.13٪)، مع تسجيل تحسن كبير في مؤشر Pass@32 (بمتوسط تحسن بنسبة 2.19٪). يمكن الاطلاع على الشيفرة والوزنات على الرابط: https://github.com/zz1358m/SofT-GRPO-master

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SofT-GRPO: تفوق التعلم بالتحفيز للنماذج اللغوية الكبيرة ذات الرموز المنفصلة من خلال تحسين السياسة بالتفكير اللين المعاد صياغته باستخدام جومبل | الأوراق البحثية | HyperAI