HyperAIHyperAI

Command Palette

Search for a command to run...

الشجرة العقلانية للوكلاء توحد التفكير، والفعل، والتخطيط في النماذج اللغوية

Andy Zhou Kai Yan Michal Shlapentokh-Rothman Haohan Wang Yu-Xiong Wang

الملخص

بينما أظهر نماذج اللغة (LMs) إمكانات كبيرة في مجموعة متنوعة من المهام المتعلقة باتخاذ القرار، فإن اعتمادها على عمليات فعل بسيطة يحد من استخدامها الواسع كوكالات مستقلة. في هذه الورقة، نقدّم "بحث الشجرة بالوكيل اللغوي" (LATS) – أول إطار عام يُوَحِّد القدرات المتميزة لنموذج اللغة في التفكير، والفعل، والتخطيط. من خلال الاستفادة من قدرة نماذج اللغة على التعلم ضمن السياق (in-context learning)، نُدمج خوارزمية البحث الشجري مونت كارلو (Monte Carlo Tree Search) في LATS لتمكين نماذج اللغة من أن تكون وكالات، إلى جانب دوال قيم مدعومة بنماذج اللغة والتأمل الذاتي (self-reflections) لتمكين استكشاف فعّال واتخاذ قرارات محسّنة. تميّز رئيسي في منهجنا هو دمج بيئة تُوفّر ملاحظات خارجية، مما يوفر آلية حل المشكلات أكثر تعمّقًا ومرونة، وتفوق القيود المفروضة على التقنيات الحالية. وقد أثبت التقييم التجريبي لـ LATS عبر مجالات متنوعة – بما في ذلك البرمجة، والإجابة التفاعلية على الأسئلة (QA)، والتنقل عبر الويب، والرياضيات – فعالية وشمولية LATS في اتخاذ القرار، مع الحفاظ على أداء في التفكير مُنافس أو مُحسّن. وبشكل لافت، حقق LATS أفضل أداء متاح (pass@1) في مجال البرمجة على مجموعة بيانات HumanEval باستخدام GPT-4، بدرجة دقة تبلغ 92.7٪، كما أظهر أداءً خاليًا من التدرج (gradient-free) مُقارِنًا بأداء التدرّب المُعدّل القائم على التدرج (gradient-based fine-tuning) في مهام التنقل عبر الويب على منصة WebShop باستخدام GPT-3.5، بدرجة متوسطة تبلغ 75.9. يمكن العثور على الكود على الرابط: https://github.com/lapisrocks/LanguageAgentTreeSearch


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp