HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

FlowRL: مطابقة توزيعات المكافأة للتفكير بالنموذج اللغوي الكبير

FlowRL: مطابقة توزيعات المكافأة للتفكير بالنموذج اللغوي الكبير

الملخص

نُقدِّم منهجية FlowRL: مطابقة التوزيع الكامل للعوائد من خلال موازنة التدفق (flow balancing)، بدلًا من تكبير العوائد في تعلم التقويم للنماذج اللغوية الكبيرة (LLM). تعتمد النماذج المتقدمة الحديثة في التفكير على أساليب تكبير العوائد (مثل PPO وGRPO)، التي تميل إلى التحسين الزائد للإشارات العائدة السائدة، بينما تتجاهل المسارات التفكيرية النادرة لكنها صحيحة، مما يؤدي إلى تقليل التنوّع. في المقابل، نحوّل العوائد القياسية إلى توزيع هدف مُعدّل باستخدام دالة تقسيم قابلة للتعلّم، ثم نُقلّل من التباين العكسي (reverse KL divergence) بين السياسة والتوزيع الهدف. نُطبّق هذه الفكرة في إطار طريقة تحسين مُوازنة بالتدفق (flow-balanced optimization)، التي تعزز الاستكشاف المتنوع ومسارات التفكير القابلة للتعميم. أجرينا تجارب على مهام التفكير الرياضي والبرمجة: حققت FlowRL تحسينًا متوسطًا ملحوظًا بنسبة 10.0% مقارنة بـ GRPO، و5.1% مقارنة بـ PPO في معايير الرياضيات، كما أظهرت أداءً أفضل باستمرار في مهام التفكير البرمجي. تُبرز هذه النتائج أن مطابقة توزيع العوائد تمثل خطوة محورية نحو استكشاف فعّال وتفكير متنوع في تعلم التقويم للنماذج اللغوية الكبيرة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
FlowRL: مطابقة توزيعات المكافأة للتفكير بالنموذج اللغوي الكبير | الأوراق البحثية | HyperAI