HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

WebSailor-V2: سد الفجوة نحو الوكلاء الخاصّة من خلال البيانات الاصطناعية والتعلم القوي القابل للتوسع

WebSailor-V2: سد الفجوة نحو الوكلاء الخاصّة من خلال البيانات الاصطناعية والتعلم القوي القابل للتوسع

الملخص

تجاوز القيود المعرفية البشرية يُعدُّ حدودًا حاسمة في تدريب النماذج اللغوية الكبيرة (LLM). وقد أظهرت أنظمة الوكيل الخاصة مثل DeepResearch قدرات فائقة على مهام البحث المعرفية المعقدة جدًا، مثل معيار BrowseComp، وهي إنجاز لم يكن ممكنًا من قبل. نحن نفترض أن نجاح هذه الأنظمة يعتمد على نمط استنتاج معقد يفتقر إليه النماذج المفتوحة المصدر: القدرة على تقليل النظامية للشكّ الشديد عند التنقل في مساحات معرفية واسعة جدًا. استنادًا إلى هذا الاستنتاج، نقدم WebSailor، وهي منهجية كاملة للتدريب اللاحق مصممة لتغذية هذه القدرة الحاسمة. يعتمد نهجنا على إنشاء مهام جديدة ذات مستوى عالٍ من عدم اليقين من خلال عينات منظمة وتشويش المعلومات، وبدء التدريب بالاسترجاع التكراري (RFT)، بالإضافة إلى خوارزمية تدريب تعزيزية قائمة على الوكيل فعّالة، تُسمى تحسين سياسة العينات المكررة (DUPO). وباستخدام هذه السلسلة المتكاملة، يتفوّق WebSailor بشكل ملحوظ على جميع الوكلاء المفتوحة المصدر في المهام المعقدة المتعلقة بالبحث المعرفي، ويُطابق أداء الأنظمة الخاصة، ويُغلق الفجوة في القدرات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
WebSailor-V2: سد الفجوة نحو الوكلاء الخاصّة من خلال البيانات الاصطناعية والتعلم القوي القابل للتوسع | الأوراق البحثية | HyperAI