HyperAIHyperAI

Command Palette

Search for a command to run...

SpatialBot: فهم فضائي دقيق باستخدام نماذج الرؤية واللغة

Wenxiao Cai Iaroslav Ponomarenko Jianhao Yuan Xiaoqi Li Wankou Yang Hao Dong Bo Zhao

الملخص

لقد حققت نماذج الرؤية واللغة (VLMs) أداءً مبهرًا في فهم الصور ثنائية الأبعاد، إلا أنها ما زالت تواجه صعوبات في الفهم المكاني، الذي يُعد الأساس لذكاء الاصطناعي المُجسم (Embodied AI). في هذا البحث، نقترح نموذج "SpatialBot" لتحسين الفهم المكاني من خلال إدخال كل من الصور الملونة (RGB) والصور العميقة (depth). بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات تُسمى "SpatialQA"، التي تتضمن أسئلة متعددة المستويات مرتبطة بالعمق، بهدف تدريب نماذج VLM على فهم العمق. وأخيرًا، نقدم "SpatialBench" لتقييم شامل لقدرات نماذج VLM في الفهم المكاني على مستويات مختلفة. أظهرت التجارب الواسعة على معيارنا المخصص للفهم المكاني، ومراجع نماذج VLM العامة، ومهمات ذكاء الاصطناعي المُجسم، تحسينات ملحوظة في أداء نموذج SpatialBot المدرب على مجموعة بيانات SpatialQA. يُمكن الوصول إلى النموذج، والكود، والبيانات عبر الرابط: https://github.com/BAAI-DCAI/SpatialBot.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp