HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام

الإجبار المكاني: محاذاة التمثيل المكاني الضمني لنموذج الرؤية واللغة والفعل

Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

الإجبار المكاني: محاذاة التمثيل المكاني الضمني لنموذج الرؤية واللغة والفعل

الملخص

أظهرت نماذج الرؤية واللغة والفعل (VLA) مؤخرًا إمكانات قوية في تمكين الروبوتات من اتباع التعليمات اللغوية وتنفيذ إجراءات دقيقة. ومع ذلك، فإن معظم نماذج VLA تُبنى على نماذج الرؤية واللغة التي تم تدريبها مسبقًا فقط على بيانات ثنائية الأبعاد (2D)، والتي تفتقر إلى الوعي المكاني الدقيق، مما يحد من قدرتها على الأداء في العالم الفيزيائي ثلاثي الأبعاد. وتحاول الحلول الحالية دمج مدخلات حسية ثلاثية الأبعاد صريحة مثل خرائط العمق أو السحاب النقطية، لكن هذه النهج تواجه صعوبات ناتجة عن ضجيج الحساسات، وتنوع المعدات، وغطاء العمق غير الكامل في المجموعات الحالية من البيانات. أما الطرق البديلة التي تحاول استخلاص إشارات ثلاثية الأبعاد من الصور ثنائية الأبعاد، فهي تعاني أيضًا من أداء محدود لمحاور التقدير العميقي.نُقدّم استراتيجية التوجيه المكاني (Spatial Forcing - SF)، وهي استراتيجية بسيطة وفعّالة، تُجبر بشكل غير مباشر نماذج VLA على تطوير قدرات الفهم المكاني دون الاعتماد على مدخلات ثلاثية الأبعاد صريحة أو على مُقدّرات العمق. تتم عملية SF من خلال محاذاة التمثيلات البصرية الوسيطة لنماذج VLA مع التمثيلات الهندسية الناتجة عن نماذج أساسية ثلاثية الأبعاد تم تدريبها مسبقًا. وبفرض المُحاذاة في الطبقات الوسيطة، تُوجّه SF نماذج VLA لتمثيل معلومات مكانية غنية أكثر، مما يعزز دقة الإجراءات. وقد أظهرت تجارب واسعة في بيئات محاكاة وواقعية نتائج متميزة، تفوق نماذج VLA القائمة على البيانات ثنائية وثلاثية الأبعاد. كما تُسرّع SF عملية التدريب بنسبة تصل إلى 3.8 مرة، وتحسّن كفاءة البيانات عبر مهام روبوتية متنوعة. يمكن زيارة الصفحة الرسمية للمشروع عبر الرابط: https://spatial-forcing.github.io/

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الإجبار المكاني: محاذاة التمثيل المكاني الضمني لنموذج الرؤية واللغة والفعل | الأوراق البحثية | HyperAI