SpatialBot: فهم فضائي دقيق باستخدام نماذج الرؤية واللغة

لقد حققت نماذج الرؤية واللغة (VLMs) أداءً مبهرًا في فهم الصور ثنائية الأبعاد، إلا أنها ما زالت تواجه صعوبات في الفهم المكاني، الذي يُعد الأساس لذكاء الاصطناعي المُجسم (Embodied AI). في هذا البحث، نقترح نموذج "SpatialBot" لتحسين الفهم المكاني من خلال إدخال كل من الصور الملونة (RGB) والصور العميقة (depth). بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات تُسمى "SpatialQA"، التي تتضمن أسئلة متعددة المستويات مرتبطة بالعمق، بهدف تدريب نماذج VLM على فهم العمق. وأخيرًا، نقدم "SpatialBench" لتقييم شامل لقدرات نماذج VLM في الفهم المكاني على مستويات مختلفة. أظهرت التجارب الواسعة على معيارنا المخصص للفهم المكاني، ومراجع نماذج VLM العامة، ومهمات ذكاء الاصطناعي المُجسم، تحسينات ملحوظة في أداء نموذج SpatialBot المدرب على مجموعة بيانات SpatialQA. يُمكن الوصول إلى النموذج، والكود، والبيانات عبر الرابط: https://github.com/BAAI-DCAI/SpatialBot.