
الملخص
الاستدلال المكاني البصري يُعدّ حاسمًا لتمكين نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) من فهم خصائص الكائنات والعلاقات المكانية، ومع ذلك تستمر النماذج الحالية في مواجهة صعوبات في الاستدلال المُدرك للثلاثي الأبعاد. تُركّز الطرق الحالية إما على تحسين الإدراك، من خلال تعزيز المدخلات الملونة (RGB) بوسائط مساعدة مثل العمق والتقسيم، أو على تحسين الاستدلال، من خلال التدريب على مجموعات بيانات استجابة الأسئلة المكانية (spatial VQA) وتطبيق التعلم القوي، مما يؤدي إلى معالجة هذين الجانبين بشكل منفصل. في هذا العمل، نستكشف ما إذا كان من الممكن لنموذج MLLM موحد أن يطوّر قدرة داخلية على تحسين الإدراك المكاني، وباستخدام استدلال مُتداخل مُتكيف، تحقيق استدلال مكاني أقوى. نقترح نموذجًا موحدًا يُسمى COOPER، يعتمد على العمق والتقسيم كوسائط مساعدة، ويتم تدريبه على مرحلتين للحصول على قدرات في إنشاء الوسائط المساعدة والاستدلال المُتداخل المُتكيف. يحقق COOPER تحسنًا متوسطًا بنسبة 6.91٪ في الاستدلال المكاني مع الحفاظ على الأداء العام. علاوة على ذلك، يُظهر نموذج فرعي تم تدريبه فقط على إنشاء الوسائط المساعدة تحسنًا بنسبة 7.92٪ في تقدير المسافات والأحجام، مما يشير إلى أن التعلّم على إنشاء الوسائط المساعدة يساعد في دمج المعرفة المكانية داخليًا وتعزيز الفهم المكاني.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.