HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال البصري الضمني الخفي

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Abstract

رغم التقدم الكبير الذي أحرزته النماذج الكبيرة متعددة الوسائط (LMMs)، تظل مُركَّزة بشكل كبير على النص، وتعتمد على اللغة كمُوَدِّلَةَ تفكير رئيسية. ونتيجة لذلك، تُعاني من قيود في القدرة على التعامل مع مهام التفكير التي تكون غالبًا بصرية. وقد سعى النهج الحديث إلى معالجة هذه المشكلة من خلال إشراف خطوات بصرية وسيطة باستخدام صور مساعدة، أو خرائط العمق، أو مقاطع صور. لكن هذه الاستراتيجيات تفرض افتراضات محدودة حول مظهر "الاستخلاصات البصرية المفيدة"، وتُضيف تكاليف تسمية كبيرة، كما تواجه صعوبات في التعميم عبر المهام المختلفة. وللتغلب على هذه القيود الحرجة، نقترح آلية غير مُحدَّدة للمهمة (task-agnostic) تُدرِّب النماذج الكبيرة متعددة الوسائط على اكتشاف واستخدام "الرموز البصرية للتفكير" دون إشراف صريح. تُركّز هذه الرموز على الصورة بشكل شامل، وتعيد ترميزها بطريقة تتكيف مع المهمة، مما يمكّن النموذج من استخراج المعلومات البصرية ذات الصلة دون الحاجة إلى إشراف مُصمَّم يدويًا. تفوق طريقة نحن اقتراحها التدريب المُحدَّث المباشر، وتحقيق نتائج رائدة على طيف واسع من المهام المُركَّزة على الرؤية — بما في ذلك المهام التي يكون فيها تحديد الاستخلاصات الوسيطة أمرًا صعبًا — مع القدرة أيضًا على التعميم في التدريب على التعليمات متعددة المهام.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp