SpatialVLM: تزويد نماذج الرؤية واللغة بقدرات الاستدلال المكاني

فهم واستنتاج العلاقات المكانية يُعدّ قدرة أساسية لتمييز الأسئلة البصرية (VQA) والروبوتات. وعلى الرغم من الأداء المتميز الذي أظهرته نماذج الرؤية واللغة (VLM) في بعض معايير تقييم VQA، إلا أنها ما زالت تعاني من قصور في التفكير المكاني ثلاثي الأبعاد، مثل التعرف على العلاقات الكمية بين الأجسام المادية، مثل المسافات أو الفروقات في الحجم. نفترض أن القدرة المحدودة لنموذج VLM على التفكير المكاني ناتجة عن غياب المعرفة المكانية ثلاثية الأبعاد في بيانات التدريب، ونهدف إلى حل هذه المشكلة من خلال تدريب نماذج VLM باستخدام بيانات استدلال مكانية على نطاق الإنترنت. لتحقيق ذلك، نقدم نظامًا يُسهّل هذا النهج. أولاً، نطوّر إطارًا تلقائيًا لإنشاء بيانات VQA المكانية ثلاثية الأبعاد، بحيث يمتد إلى 2 مليار مثال لـ VQA على 10 ملايين صورة من العالم الحقيقي. ثم نستعرض عوامل مختلفة في وصفة التدريب، بما في ذلك جودة البيانات وخط أنابيب التدريب وبنية نموذج VLM. تتميز دراستنا بكونها أول مجموعة بيانات على نطاق الإنترنت للاستدلال المكاني ثلاثي الأبعاد في الفضاء القياسي (metric space). وباستخدام هذه البيانات لتدريب نموذج VLM، نعزز بشكل كبير قدرته على التمييز المكاني، سواء النوعي أو الكمي. وأخيرًا، نُظهر أن هذا النموذج يُمكّن من تطبيقات جديدة في المهام التالية، مثل الاستدلال المكاني بسلسلة من الأفكار (chain-of-thought) والروبوتات، وذلك بفضل قدرته على التقدير الكمي. موقع المشروع: https://spatial-vlm.github.io/