HyperAIHyperAI
منذ 11 أيام

ما بعد عشرة دورات: فتح البحث الواعي بآفاق طويلة من خلال التعلم التزامني الكبير والمتزامن

Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu
ما بعد عشرة دورات: فتح البحث الواعي بآفاق طويلة من خلال التعلم التزامني الكبير والمتزامن
الملخص

أظهرت التطورات الحديثة في الوكلاء القائمة على النماذج الكبيرة للغة (LLM) قدرات مميزة في التعامل مع المهام المعقدة ذات الطابع المعرفي العالي من خلال دمج الأدوات الخارجية. ومن بين الخيارات المتنوعة للأدوات، تُعد أدوات البحث دورًا محوريًا في الوصول إلى المعرفة الخارجية الواسعة. ومع ذلك، لا تزال الوكلاء المفتوحة المصدر بعيدة عن تحقيق ما يُعرف بذكاء البحث على مستوى الخبير، أي القدرة على معالجة الاستفسارات الغامضة، وإنشاء عمليات بحث دقيقة، وتحليل النتائج، وإجراء استكشاف شامل. وتُظهر النماذج الحالية نقصًا في القابلية للتوسع، والكفاءة، ونوعية البيانات. على سبيل المثال، تُقيّد حدود الدورات الصغيرة في الطرق الحالية القائمة على التعلم بالتعزيز عبر الإنترنت (online RL)، مثل ≤10 دورات، تعلم الاستراتيجيات المعقدة. تقدم هذه الورقة مشروع ASearcher، وهو مشروع مفتوح المصدر مخصص لتدريب الوكلاء الخاصة بالبحث على نطاق واسع باستخدام التعلم بالتعزيز. وتتمثل مساهماتنا الرئيسية في: (1) تدريب مكثف بالكامل ومتزامن بشكل كامل (fully asynchronous RL) قابل للتوسع، مما يتيح عمليات بحث طويلة الأجل مع الحفاظ على كفاءة تدريب عالية. (2) وكيل مبني على النموذج اللغوي الكبير (LLM) يستند إلى النصائح (prompt-based)، قادر على إنشاء تلقائي لأسئلة وأجوبة عالية الجودة وصعبة، ما يؤدي إلى إنشاء مجموعة بيانات كبيرة من الأسئلة والأجوبة. وباستخدام التدريب بالتعزيز، حقق وكيلنا القائم على النصائح QwQ-32B تحسينات كبيرة، حيث بلغت زيادة في مؤشر Avg@4 بنسبة 46.7% على xBench و20.8% على GAIA، على التوالي. وبشكل ملحوظ، أظهر وكيلنا قدرة استثنائية على البحث على مدى طويل جدًا، حيث تجاوز عدد استدعاءات الأدوات 40 دورة، وتجاوز عدد الرموز الناتجة (output tokens) 150 ألفًا خلال فترة التدريب. وبتصميم وكيل بسيط دون الحاجة إلى نماذج لغوية خارجية، حقق ASearcher-Web-QwQ نتائج Avg@4 بلغت 42.1 على xBench و52.8 على GAIA، متفوقًا على الوكلاء المفتوحة المصدر الأخرى من فئة 32B. ونُعلن عن فتح المصدر لنموذجنا، وبيانات التدريب، والكود عبر الرابط: https://github.com/inclusionAI/ASearcher.