Genglin Liu Shijie Geng Sha Li Hejie Cui Sarah Zhang Xin Liu Tianyi Liu

الملخص
أظهرت الوكالات المدعومة بـ LLM متعددة الوسائط مؤخرًا قدرات مبهرة في التنقل عبر الويب، مما يمكّن هذه الوكالات من إنجاز مهام تصفح معقدة عبر مجالات متنوعة. ومع ذلك، تواجه الوكالات الحالية صعوبات في التغلب على الأخطاء المتكررة، كما تعاني من عدم القدرة على التعلم من الخبرات السابقة عبر الجلسات المختلفة، مما يحد من قدرتها على الصمود على المدى الطويل وكفاءتها في استخدام العينات. نقدم "WebCoach"، إطارًا ذاتي التطور غير مرتبط بنموذج معين، يزوّد وكالات التصفح عبر الويب بذاكرة مستمرة عبر الجلسات، مما يُمكّنها من تحسين التخطيط طويل الأمد والتأمل والتعلم المستمر دون الحاجة إلى إعادة التدريب. يتكون WebCoach من ثلاث مكونات رئيسية: (1) "WebCondenser"، الذي يُوحّد سجلات التنقل الخام إلى ملخصات موجزة؛ (2) "مخزن الذاكرة الخارجية"، الذي يُنظّم المسارات الكاملة كتجارب إبيزودية؛ و(3) "المدرب" (Coach)، الذي يسترجع التجارب ذات الصلة بناءً على التشابه والحداثة، ويقرّر ما إذا كان ينبغي إدخال نصائح مخصصة للمهمة إلى الوكالة عبر نقاط تدخل وقت التشغيل. وتُمكّن هذه البنية الوكالات من الوصول إلى ذاكرة طويلة الأمد تتجاوز النافذة السياقية الأصلية لها، مما يعزز من قوتها في مواجهة مهام التصفح المعقدة. علاوةً على ذلك، يُحقّق WebCoach التطور الذاتي من خلال تجميع الذاكرة الإبيزودية باستمرار من مسارات التنقل الجديدة، ما يمكّن الوكالات من التحسّن مع مرور الوقت دون الحاجة إلى إعادة التدريب. وقد أظهرت التقييمات على معيار WebVoyager أن WebCoach يُحسّن باستمرار أداء وكالات المتصفح عبر ثلاثة نماذج مختلفة من LLM. وباستخدام نموذج بحجم 38 مليار معلمة، رفع معدل نجاح المهام من 47% إلى 61% مع الحفاظ على أو تقليل عدد الخطوات المتوسطة. وبشكل لافت، حققت النماذج الأساسية الأصغر حجمًا، مع استخدام WebCoach، أداءً يقارب الأداء الذي تحققه نفس الوكالة باستخدام GPT-4o.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.