Command Palette
Search for a command to run...

الملخص
نجحت النماذج الكبيرة متعددة الوسائط للغة (MLLMs)، التي تم تدريبها باستخدام التوجيه البصري (Visual Instruction Tuning)، في تحقيق أداء قوي عبر مهام متنوعة، ومع ذلك ما زالت محدودة في المهام التي تركز على الرؤية، مثل عد الأشياء أو التفكير المكاني. نُعزِّي هذا الفجوة إلى النموذج السائد للإشراف النصي فقط، الذي يوفر توجيهًا غير مباشر للمسار البصري، وغالبًا ما يؤدي إلى تجاهل نماذج MLLMs للتفاصيل البصرية الدقيقة أثناء التدريب. في هذه الورقة، نقدّم استراتيجية تنظيم بسيطة وفعّالة تُسمى "مُحاذاة التمثيل البصري (VIRAL)"، والتي تُحاذي التمثيلات البصرية الداخلية لنموذج MLLMs مع تلك الخاصة بنماذج الأساس البصرية المُدرّبة مسبقًا (VFMs). وباستخدام هذا التحاذي الصريح، تمكن VIRAL النموذج من الحفاظ على التفاصيل البصرية الحاسمة من مشفر الرؤية المُدخل، كما تُمكّنه من اكتساب معرفة بصرية إضافية من نماذج VFMs، مما يعزز قدرته على التفكير في المدخلات البصرية المعقدة. تُظهر تجاربنا تحسينات منتظمة في جميع المهام على مجموعات البيانات متعددة الوسائط الشائعة الاستخدام. علاوةً على ذلك، قمنا بدراسات تحليلية شاملة لتقييم الخيارات التصميمية الأساسية في إطارنا. نؤمن أن هذا الاكتشاف البسيط يفتح اتجاهًا مهمًا لدمج المعلومات البصرية بشكل فعّال أثناء تدريب نماذج MLLMs.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.