HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام

DeepMMSearch-R1: تعزيز النماذج اللغوية متعددة الوسائط في بحث الويب متعدد الوسائط

Kartik Narayan Yang Xu Tian Cao Kavya Nerella Vishal M. Patel et al

DeepMMSearch-R1: تعزيز النماذج اللغوية متعددة الوسائط في بحث الويب متعدد الوسائط

الملخص

تتطلب نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) في التطبيقات الواقعية الوصول إلى مصادر معرفية خارجية، ويجب أن تظل حساسة للمعلومات الواقعية الديناميكية المتغيرة باستمرار، وذلك لمعالجة الاستفسارات التي تتطلب معرفة عميقة أو معلومات محددة. وتُعاني الطرق الحالية، مثل منهجيات التوليد المدعوم باسترجاع (RAG)، والوكلاء المُساعدين في البحث، والأنظمة متعددة الوسائط المزودة بأدوات بحث، من عيوب متمثلة في أنظمة معالجة صارمة، وعدد كبير جدًا من استدعاءات البحث، وصياغة استعلامات بحث غير فعّالة، ما يؤدي إلى عدم كفاءة ونتائج غير مثلى. وللتغلب على هذه القيود، نقدّم "DeepMMSearch-R1"، وهي أول نموذج لغة كبيّر متعدد الوسائط قادر على إجراء عمليات بحث عبر الإنترنت متعددة الدورات وحسب الطلب، وصياغة استعلامات ديناميكية لأدوات البحث النصية والمرئية. وبشكل خاص، يمكن لـ DeepMMSearch-R1 بدء عمليات بحث على الإنترنت استنادًا إلى مقاطع مختارة ذات صلة من الصورة المدخلة، مما يعزز فعالية البحث المرئي، كما يمكنه تكييف استعلامات البحث النصية بشكل تكراري بناءً على المعلومات المسترجعة، مما يمكّنه من ممارسة التفكير الذاتي والإصلاح الذاتي. تعتمد منهجيتنا على نموذج تدريب مكوّن من مرحلتين: مرحلة تدريب مُخصص مُوجّه (Cold Start) تليها مرحلة تحسين عبر التعلم التعلّمي التكراري (Online Reinforcement Learning). ولغرض التدريب، نقدّم "DeepMMSearchVQA"، وهي مجموعة بيانات جديدة متعددة الوسائط لاختبار فهم الصورة والسؤال (VQA)، تم إنشاؤها عبر أنبوب تلقائي يدمج معلومات حقيقية من أدوات البحث عبر الإنترنت. وتضم هذه المجموعة أسئلة متنوعة ومتعددة الخطوات، تدمج بين المعلومات النصية والبصرية، وتعلّم النموذج متى يجب البحث، وماذا يجب البحث عنه، وأي أداة بحث ينبغي استخدامها، وكيفية التفكير في المعلومات المسترجعة. ونُجري تجارب واسعة النطاق على مجموعة متنوعة من المعايير المعرفية المكثفة، لإثبات تفوق منهجيتنا. وأخيرًا، نحلّل النتائج ونقدّم رؤى قيمة تُسهم في تطوير البحث عبر الإنترنت متعدد الوسائط.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DeepMMSearch-R1: تعزيز النماذج اللغوية متعددة الوسائط في بحث الويب متعدد الوسائط | الأوراق البحثية | HyperAI