Command Palette
Search for a command to run...
DeepPlanning: تقييم التخطيط الواعي على المدى الطويل مع قيود قابلة للتحقق
DeepPlanning: تقييم التخطيط الواعي على المدى الطويل مع قيود قابلة للتحقق
Yinger Zhang Shutong Jiang Renhao Li Jianhong Tu Yang Su Lianghao Deng Xudong Guo Chenxu Lv Junyang Lin
الملخص
بينما انتقل تقييم الوكلاء نحو المهام ذات الأفق الطويل، لا يزال معظم المعايير تعتمد بشكل مفرط على التفكير المحلي والمستوى التدريجي للخطوات، بدلًا من التحسين المحدود العالمي (مثل الميزانيات الزمنية والمالية) الذي يتطلب قدرة حقيقية على التخطيط. وفي الوقت نفسه، تُقلل المعايير الحالية الخاصة بالنموذج اللغوي الكبير (LLM) في التخطيط من أهمية جمع المعلومات النشط ووجود القيود المحلية الدقيقة التي تمثل السياقات الواقعية. ولحل هذه المشكلة، نقدم "DeepPlanning"، وهو معيار صعب يُعدّ معيارًا لتحسين التخطيط طويل الأجل للوكلاء في السياقات العملية. ويتميز هذا المعيار بمهام تخطيط سفر متعددة الأيام ومهام تسوق متعددة المنتجات، التي تتطلب اكتساب المعلومات بشكل استباقي، والتفكير المحدود المحلي، والتخطيط المحدود العالمي. أظهرت تقييمات DeepPlanning أن حتى أحدث النماذج الوكلائية القائمة على النماذج اللغوية الكبيرة تواجه صعوبات في التعامل مع هذه المهام، مما يبرز أهمية أنماط التفكير الصريح الموثوقة واستخدام الأدوات بالتوازي لتحقيق توازن أفضل بين الكفاءة والفعالية. كما أشار التحليل الخاطئ إلى اتجاهات واعدة لتحسين النماذج الوكلائية القائمة على النماذج اللغوية الكبيرة في السياقات الطويلة الأجل. ونُفصح عن الكود والبيانات لدعم الأبحاث المستقبلية.