HyperAIHyperAI

Command Palette

Search for a command to run...

SpatialVLM: تزويد نماذج الرؤية واللغة بقدرات الاستدلال المكاني

Boyuan Chen Zhuo Xu Sean Kirmani Brian Ichter Danny Driess Pete Florence Dorsa Sadigh Leonidas Guibas Fei Xia

الملخص

فهم واستنتاج العلاقات المكانية يُعدّ قدرة أساسية لتمييز الأسئلة البصرية (VQA) والروبوتات. وعلى الرغم من الأداء المتميز الذي أظهرته نماذج الرؤية واللغة (VLM) في بعض معايير تقييم VQA، إلا أنها ما زالت تعاني من قصور في التفكير المكاني ثلاثي الأبعاد، مثل التعرف على العلاقات الكمية بين الأجسام المادية، مثل المسافات أو الفروقات في الحجم. نفترض أن القدرة المحدودة لنموذج VLM على التفكير المكاني ناتجة عن غياب المعرفة المكانية ثلاثية الأبعاد في بيانات التدريب، ونهدف إلى حل هذه المشكلة من خلال تدريب نماذج VLM باستخدام بيانات استدلال مكانية على نطاق الإنترنت. لتحقيق ذلك، نقدم نظامًا يُسهّل هذا النهج. أولاً، نطوّر إطارًا تلقائيًا لإنشاء بيانات VQA المكانية ثلاثية الأبعاد، بحيث يمتد إلى 2 مليار مثال لـ VQA على 10 ملايين صورة من العالم الحقيقي. ثم نستعرض عوامل مختلفة في وصفة التدريب، بما في ذلك جودة البيانات وخط أنابيب التدريب وبنية نموذج VLM. تتميز دراستنا بكونها أول مجموعة بيانات على نطاق الإنترنت للاستدلال المكاني ثلاثي الأبعاد في الفضاء القياسي (metric space). وباستخدام هذه البيانات لتدريب نموذج VLM، نعزز بشكل كبير قدرته على التمييز المكاني، سواء النوعي أو الكمي. وأخيرًا، نُظهر أن هذا النموذج يُمكّن من تطبيقات جديدة في المهام التالية، مثل الاستدلال المكاني بسلسلة من الأفكار (chain-of-thought) والروبوتات، وذلك بفضل قدرته على التقدير الكمي. موقع المشروع: https://spatial-vlm.github.io/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp