Command Palette
Search for a command to run...
WebSailor-V2: سد الفجوة نحو الوكلاء الخاصّة من خلال البيانات الاصطناعية والتعلم القوي القابل للتوسع

الملخص
تجاوز القيود المعرفية البشرية يُعدُّ حدودًا حاسمة في تدريب النماذج اللغوية الكبيرة (LLM). وقد أظهرت أنظمة الوكيل الخاصة مثل DeepResearch قدرات فائقة على مهام البحث المعرفية المعقدة جدًا، مثل معيار BrowseComp، وهي إنجاز لم يكن ممكنًا من قبل. نحن نفترض أن نجاح هذه الأنظمة يعتمد على نمط استنتاج معقد يفتقر إليه النماذج المفتوحة المصدر: القدرة على تقليل النظامية للشكّ الشديد عند التنقل في مساحات معرفية واسعة جدًا. استنادًا إلى هذا الاستنتاج، نقدم WebSailor، وهي منهجية كاملة للتدريب اللاحق مصممة لتغذية هذه القدرة الحاسمة. يعتمد نهجنا على إنشاء مهام جديدة ذات مستوى عالٍ من عدم اليقين من خلال عينات منظمة وتشويش المعلومات، وبدء التدريب بالاسترجاع التكراري (RFT)، بالإضافة إلى خوارزمية تدريب تعزيزية قائمة على الوكيل فعّالة، تُسمى تحسين سياسة العينات المكررة (DUPO). وباستخدام هذه السلسلة المتكاملة، يتفوّق WebSailor بشكل ملحوظ على جميع الوكلاء المفتوحة المصدر في المهام المعقدة المتعلقة بالبحث المعرفي، ويُطابق أداء الأنظمة الخاصة، ويُغلق الفجوة في القدرات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.