Command Palette
Search for a command to run...
الاستدلال البصري الضمني الخفي
الاستدلال البصري الضمني الخفي
Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig
Abstract
رغم التقدم الكبير الذي أحرزته النماذج الكبيرة متعددة الوسائط (LMMs)، تظل مُركَّزة بشكل كبير على النص، وتعتمد على اللغة كمُوَدِّلَةَ تفكير رئيسية. ونتيجة لذلك، تُعاني من قيود في القدرة على التعامل مع مهام التفكير التي تكون غالبًا بصرية. وقد سعى النهج الحديث إلى معالجة هذه المشكلة من خلال إشراف خطوات بصرية وسيطة باستخدام صور مساعدة، أو خرائط العمق، أو مقاطع صور. لكن هذه الاستراتيجيات تفرض افتراضات محدودة حول مظهر "الاستخلاصات البصرية المفيدة"، وتُضيف تكاليف تسمية كبيرة، كما تواجه صعوبات في التعميم عبر المهام المختلفة. وللتغلب على هذه القيود الحرجة، نقترح آلية غير مُحدَّدة للمهمة (task-agnostic) تُدرِّب النماذج الكبيرة متعددة الوسائط على اكتشاف واستخدام "الرموز البصرية للتفكير" دون إشراف صريح. تُركّز هذه الرموز على الصورة بشكل شامل، وتعيد ترميزها بطريقة تتكيف مع المهمة، مما يمكّن النموذج من استخراج المعلومات البصرية ذات الصلة دون الحاجة إلى إشراف مُصمَّم يدويًا. تفوق طريقة نحن اقتراحها التدريب المُحدَّث المباشر، وتحقيق نتائج رائدة على طيف واسع من المهام المُركَّزة على الرؤية — بما في ذلك المهام التي يكون فيها تحديد الاستخلاصات الوسيطة أمرًا صعبًا — مع القدرة أيضًا على التعميم في التدريب على التعليمات متعددة المهام.