ويب سيلور: التنقل في التفكير الفائق للوكيل الويب

تجاوز القيود المعرفية للإنسان يمثل حدًا حاسمًا في تدريب النماذج اللغوية الكبيرة (LLM). وقد أظهرت الأنظمة الوكيلة الحصرية مثل DeepResearch قدرات فائقة للبشر في مقاييس البحث عن المعلومات المعقدة للغاية مثل BrowseComp، وهي إنجاز كان من الصعب تحقيقه سابقًا. نعتقد أن نجاحها يعتمد على نمط استدلال معقد غير موجود في النماذج ذات المصدر المفتوح: القدرة على تقليل الغموض الشديد بشكل منهجي عند التنقل عبر المناظر المعلوماتية الواسعة. بناءً على هذه الرؤية، نقدم WebSailor، وهو منهج شامل ما بعد التدريب مصمم لغرس هذه القدرة الحاسمة. يتضمن نهجنا إنشاء مهام جديدة ذات غموض عالٍ من خلال العينات الهيكلية وتضليل المعلومات، بدء التشغيل البارد لـ RFT، وخوارزمية تعلم تعزيزي وكيلي كفاءة، وهي خوارزمية تحسين السياسة بتكرار العينات (DUPO). وبفضل هذا خط الأنابيب المتكامل، فإن WebSailor يتفوق بشكل كبير على جميع وكلاء البرمجيات ذات المصدر المفتوح في مهام البحث عن المعلومات المعقدة، مما يتناسب مع أداء الأنظمة الوكيلة الحصرية ويغلق الفجوة في القدرات.