Command Palette
Search for a command to run...
Jinming Wu Zihao Deng Wei Li Yiding Liu Bo You Bo Li Zejun Ma Ziwei Liu

الملخص
النشر القوي للنماذج المتعددة الأوضاع ذات الحجم الكبير (LMMs) في السيناريوهات الواقعية يتطلب الوصول إلى مصادر المعرفة الخارجية، نظرًا لتعقيد وطبيعة المعلومات الواقعية الديناميكية. تُعاني النهج الحالية مثل التوليد المعزز بالاسترجاع (RAG) والوكلاء البحثيين الذين تم تصميمهم بواسطة الدفعات من خطوط الأنابيب الجامدة، مما يؤدي غالبًا إلى سلوكيات بحث غير فعالة أو مفرطة. نقدم MMSearch-R1، الإطار الأول للتعلم التعزيزي من البداية إلى النهاية الذي يمكّن النماذج المتعددة الأوضاع من إجراء بحث متعدد الدورات حسب الطلب في بيئات الإنترنت الواقعية. يدمج إطارنا أدوات البحث عن الصور والنصوص، مما يسمح للنموذج بالتفكير في الوقت المناسب وكيفية استخدامها تحت إرشاد مكافأة تعتمد على النتيجة مع عقوبة البحث. لدعم التدريب، جمعنا مجموعة بيانات VQA بحث متعددة الأوضاع عبر خط أنابيب شبه آلي تغطي احتياجات معرفة مرئية ونصية متنوعة وقمنا بإعداد مجموعة فرعية متوازنة من البحث تتضمن عينات تتطلب البحث وأخرى لا تتطلب البحث، والتي أثبتت أهميتها في تشكيل سلوك بحث فعال ومطلوب حسب الطلب. أظهرت التجارب الواسعة على مهمات VQA المكثفة بالمعرفة والموجهة للحصول على المعلومات أن نموذجنا ليس فقط يتفوق على الأساسيات المستندة إلى RAG من نفس حجم النموذج، بل يصل أيضًا إلى أداء نموذج RAG أكبر بينما يقلل من مكالمات البحث بنسبة تزيد عن 30%. قمنا أيضًا بتحليل النتائج التجريبية الرئيسية لتقديم رؤى عملية يمكن تنفيذها لتطوير البحوث في مجال البحث المتعدد الأوضاع.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.