Command Palette
Search for a command to run...
Yuxiang Ji Ziyu Ma Yong Wang Guanhua Chen Xiangxiang Chu Liaoni Wu

الملخص
أحدث التطورات في التعلم بالتعزيز (RL) تحسينًا كبيرًا في القدرات الوكيلية للنماذج اللغوية الكبيرة (LLMs). في المهام طويلة المدى ومتعددة الدورات التي تُنفَّذها الوكالات، تعاني الطرق الحالية التي تعتمد فقط على مكافآت النتيجة من مشكلة التوجيه النادر. ولحل هذه المشكلة، نقترح طريقة التحسين المُعدَّل للسياسة النسبية المُجمَّعة القائمة على البحث الشجري (Tree-GRPO)، وهي طريقة تعلُّم الوكيل القائمة على الشجرة، حيث يُمثّل كل عقدة في الشجرة خطوة كاملة من تفاعل الوكالة. وبفضل مشاركة البدايات المشتركة، يزداد عدد التكرارات (rollouts) التي يمكن تحقيقها ضمن حدٍّ ثابت من الرموز (tokens) أو استدعاءات الأدوات. علاوةً على ذلك، نلاحظ أن المسارات ذات البنية الشجرية تسمح بشكل طبيعي ببناء إشارات توجيهية للعملية خطوة بخطوة، حتى عند استخدام مكافأة النتيجة وحدها. استنادًا إلى ذلك، تقوم طريقة Tree-GRPO بتقدير المزايا النسبية المجمعة على المستويين الداخلي للشجرة والخارجي بين الشجرات. وبواسطة التحليل النظري، نُظهِر أن الهدف الخاص بتحسين السياسة النسبية المجمعة على مستوى الشجرة الواحدة يعادل هدف التعلُّم المُباشر المُفضَّل على مستوى الخطوة. وأظهرت التجارب التي أجريت على 11 مجموعة بيانات و3 أنواع من مهام الإجابة على الأسئلة تفوق الطريقة المُقترحة القائمة على الشجرة على الطريقة القائمة على السلسلة (chain-based RL).
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.