الشجرة العقلانية للوكلاء توحد التفكير، والفعل، والتخطيط في النماذج اللغوية

بينما أظهر نماذج اللغة (LMs) إمكانات كبيرة في مجموعة متنوعة من المهام المتعلقة باتخاذ القرار، فإن اعتمادها على عمليات فعل بسيطة يحد من استخدامها الواسع كوكالات مستقلة. في هذه الورقة، نقدّم "بحث الشجرة بالوكيل اللغوي" (LATS) – أول إطار عام يُوَحِّد القدرات المتميزة لنموذج اللغة في التفكير، والفعل، والتخطيط. من خلال الاستفادة من قدرة نماذج اللغة على التعلم ضمن السياق (in-context learning)، نُدمج خوارزمية البحث الشجري مونت كارلو (Monte Carlo Tree Search) في LATS لتمكين نماذج اللغة من أن تكون وكالات، إلى جانب دوال قيم مدعومة بنماذج اللغة والتأمل الذاتي (self-reflections) لتمكين استكشاف فعّال واتخاذ قرارات محسّنة. تميّز رئيسي في منهجنا هو دمج بيئة تُوفّر ملاحظات خارجية، مما يوفر آلية حل المشكلات أكثر تعمّقًا ومرونة، وتفوق القيود المفروضة على التقنيات الحالية. وقد أثبت التقييم التجريبي لـ LATS عبر مجالات متنوعة – بما في ذلك البرمجة، والإجابة التفاعلية على الأسئلة (QA)، والتنقل عبر الويب، والرياضيات – فعالية وشمولية LATS في اتخاذ القرار، مع الحفاظ على أداء في التفكير مُنافس أو مُحسّن. وبشكل لافت، حقق LATS أفضل أداء متاح (pass@1) في مجال البرمجة على مجموعة بيانات HumanEval باستخدام GPT-4، بدرجة دقة تبلغ 92.7٪، كما أظهر أداءً خاليًا من التدرج (gradient-free) مُقارِنًا بأداء التدرّب المُعدّل القائم على التدرج (gradient-based fine-tuning) في مهام التنقل عبر الويب على منصة WebShop باستخدام GPT-3.5، بدرجة متوسطة تبلغ 75.9. يمكن العثور على الكود على الرابط: https://github.com/lapisrocks/LanguageAgentTreeSearch