Command Palette
Search for a command to run...

الملخص
تُظهر الوكلاء الويب القائمون على نماذج اللغة الكبيرة (LLM) أداءً قويًا في المهام التي تتطلب معرفة واسعة، لكنهم يعانون من قيود في نافذة السياق في النماذج مثل ReAct. فالاستفسارات المعقدة التي تتضمن كيانات متعددة، وعلاقات متشابكة، ودرجة عالية من عدم اليقين، تتطلب دورات بحث طويلة تُستهلك فيها ميزانية السياق بسرعة قبل الوصول إلى حلول كاملة. ول superar هذا التحدي، نقدم ReSum، نموذجًا جديدًا يمكّن من الاستكشاف غير المحدود من خلال تلخيص السياق دوريًا. يحوّل ReSum السجلات المتزايدة للتفاعل إلى حالات استنتاج مكثفة، مع الحفاظ على الوعي بالاكتشافات السابقة، مع تجاوز قيود السياق. وبالنسبة لتكيف النموذج، نقترح ReSum-GRPO، الذي يدمج بين GRPO وتدريب المسارات المُقسَّمة ونشر الميزة لتمكين الوكلاء من التعود على التفكير المعتمد على التلخيص. وقد أظهرت التجارب الواسعة على وكلاء ويب بمقاييس مختلفة عبر ثلاث معايير أن ReSum يحقق تحسنًا مطلقًا متوسطه 4.5% مقارنةً بـ ReAct، مع مكاسب إضافية تصل إلى 8.2% بعد تدريب ReSum-GRPO. وبشكل لافت، وباستخدام فقط 1000 عينة تدريب، تحقق WebResummer-30B (النسخة المدربة بـ ReSum-GRPO من WebSailor-30B) نسبة 33.3% في معيار BrowseComp-zh و18.3% في BrowseComp-en، متفوقةً على الوكلاء المفتوحة المصدر الحالية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.