HyperAIHyperAI

Command Palette

Search for a command to run...

روبوونيويو: نموذج بصري-لغوي يعتمد على تمثيل بصري موحد للتحكم الروبوتي

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

الملخص

يُعد استخدام نماذج الرؤية واللغة (VLMs) في التلاعب الروبوتي نموذجًا جديدًا، يهدف إلى تعزيز قدرة النموذج على التعميم تجاه أشياء وتعليمات جديدة. ومع ذلك، نظرًا للتنوع في مواصفات الكاميرات ومواقع تركيبها، تُظهر الطرق الحالية فروقًا كبيرة في الأداء بين منصات روبوتية مختلفة. ولحل هذه التحديات، نقترح في هذه الورقة منهجية جديدة تُسمى RoboUniView، التي تفصل بين استخراج السمات البصرية وتعلم الإجراءات. نبدأ بتعلم تمثيل بصري موحد من مناظر متعددة عبر التدريب المسبق على بيانات متاحة بسهولة، ثم نستنتج الإجراءات من هذا التمثيل البصري الموحّد للتحكم في التلاعب الروبوتي. يعكس هذا التمثيل البصري الموحّد الواقع الفعلي بدقة أكبر، ولا يخضع لقيود معايير كاميرات المنصة الروبوتية. وبفضل هذه المنهجية، نحقق أداءً متفوقًا على معيار CALVIN الصعب، حيث يرتفع معدل النجاح في البيئة DDD \to DDD من 93.0% إلى 96.2%، وفي البيئة ABCDABC \to DABCD من 92.2% إلى 94.2%. علاوة على ذلك، تُظهر نماذجنا مرونة وتكيفًا متميزين: فهي تحتفظ بأداء عالٍ حتى في ظل ظروف كاميرات غير مُشاهَدة، ويمكنها استخدام عدة مجموعات بيانات ذات معايير كاميرات مختلفة، كما تتيح التعلم المشترك عبر المهام عبر مجموعات البيانات. تم توفير الكود لتمكين إعادة التنفيذ. https://github.com/liufanfanlff/RoboUniview


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp