منذ شهر واحد

الملخص

رغم التقدم الكبير الذي أحرزته النماذج الكبيرة متعددة الوسائط (LMMs)، تظل مُركَّزة بشكل كبير على النص، وتعتمد على اللغة كمُوَدِّلَةَ تفكير رئيسية. ونتيجة لذلك، تُعاني من قيود في القدرة على التعامل مع مهام التفكير التي تكون غالبًا بصرية. وقد سعى النهج الحديث إلى معالجة هذه المشكلة من خلال إشراف خطوات بصرية وسيطة باستخدام صور مساعدة، أو خرائط العمق، أو مقاطع صور. لكن هذه الاستراتيجيات تفرض افتراضات محدودة حول مظهر "الاستخلاصات البصرية المفيدة"، وتُضيف تكاليف تسمية كبيرة، كما تواجه صعوبات في التعميم عبر المهام المختلفة. وللتغلب على هذه القيود الحرجة، نقترح آلية غير مُحدَّدة للمهمة (task-agnostic) تُدرِّب النماذج الكبيرة متعددة الوسائط على اكتشاف واستخدام "الرموز البصرية للتفكير" دون إشراف صريح. تُركّز هذه الرموز على الصورة بشكل شامل، وتعيد ترميزها بطريقة تتكيف مع المهمة، مما يمكّن النموذج من استخراج المعلومات البصرية ذات الصلة دون الحاجة إلى إشراف مُصمَّم يدويًا. تفوق طريقة نحن اقتراحها التدريب المُحدَّث المباشر، وتحقيق نتائج رائدة على طيف واسع من المهام المُركَّزة على الرؤية — بما في ذلك المهام التي يكون فيها تحديد الاستخلاصات الوسيطة أمرًا صعبًا — مع القدرة أيضًا على التعميم في التدريب على التعليمات متعددة المهام.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار