منذ شهر واحد

بحث شجري للتعلم القوي لوكيل نموذج لغوي كبير

Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

الملخص

أحدث التطورات في التعلم بالتعزيز (RL) تحسينًا كبيرًا في القدرات الوكيلية للنماذج اللغوية الكبيرة (LLMs). في المهام طويلة المدى ومتعددة الدورات التي تُنفَّذها الوكالات، تعاني الطرق الحالية التي تعتمد فقط على مكافآت النتيجة من مشكلة التوجيه النادر. ولحل هذه المشكلة، نقترح طريقة التحسين المُعدَّل للسياسة النسبية المُجمَّعة القائمة على البحث الشجري (Tree-GRPO)، وهي طريقة تعلُّم الوكيل القائمة على الشجرة، حيث يُمثّل كل عقدة في الشجرة خطوة كاملة من تفاعل الوكالة. وبفضل مشاركة البدايات المشتركة، يزداد عدد التكرارات (rollouts) التي يمكن تحقيقها ضمن حدٍّ ثابت من الرموز (tokens) أو استدعاءات الأدوات. علاوةً على ذلك، نلاحظ أن المسارات ذات البنية الشجرية تسمح بشكل طبيعي ببناء إشارات توجيهية للعملية خطوة بخطوة، حتى عند استخدام مكافأة النتيجة وحدها. استنادًا إلى ذلك، تقوم طريقة Tree-GRPO بتقدير المزايا النسبية المجمعة على المستويين الداخلي للشجرة والخارجي بين الشجرات. وبواسطة التحليل النظري، نُظهِر أن الهدف الخاص بتحسين السياسة النسبية المجمعة على مستوى الشجرة الواحدة يعادل هدف التعلُّم المُباشر المُفضَّل على مستوى الخطوة. وأظهرت التجارب التي أجريت على 11 مجموعة بيانات و3 أنواع من مهام الإجابة على الأسئلة تفوق الطريقة المُقترحة القائمة على الشجرة على الطريقة القائمة على السلسلة (chain-based RL).

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

بحث شجري للتعلم القوي لوكيل نموذج لغوي كبير

Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters