منذ 15 أيام

روبوونيويو: نموذج بصري-لغوي يعتمد على تمثيل بصري موحد للتحكم الروبوتي

Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, Lin Ma

الملخص

يُعد استخدام نماذج الرؤية واللغة (VLMs) في التلاعب الروبوتي نموذجًا جديدًا، يهدف إلى تعزيز قدرة النموذج على التعميم تجاه أشياء وتعليمات جديدة. ومع ذلك، نظرًا للتنوع في مواصفات الكاميرات ومواقع تركيبها، تُظهر الطرق الحالية فروقًا كبيرة في الأداء بين منصات روبوتية مختلفة. ولحل هذه التحديات، نقترح في هذه الورقة منهجية جديدة تُسمى RoboUniView، التي تفصل بين استخراج السمات البصرية وتعلم الإجراءات. نبدأ بتعلم تمثيل بصري موحد من مناظر متعددة عبر التدريب المسبق على بيانات متاحة بسهولة، ثم نستنتج الإجراءات من هذا التمثيل البصري الموحّد للتحكم في التلاعب الروبوتي. يعكس هذا التمثيل البصري الموحّد الواقع الفعلي بدقة أكبر، ولا يخضع لقيود معايير كاميرات المنصة الروبوتية. وبفضل هذه المنهجية، نحقق أداءً متفوقًا على معيار CALVIN الصعب، حيث يرتفع معدل النجاح في البيئة $D \to D$ من 93.0% إلى 96.2%، وفي البيئة $ABC \to D$ من 92.2% إلى 94.2%. علاوة على ذلك، تُظهر نماذجنا مرونة وتكيفًا متميزين: فهي تحتفظ بأداء عالٍ حتى في ظل ظروف كاميرات غير مُشاهَدة، ويمكنها استخدام عدة مجموعات بيانات ذات معايير كاميرات مختلفة، كما تتيح التعلم المشترك عبر المهام عبر مجموعات البيانات. تم توفير الكود لتمكين إعادة التنفيذ. https://github.com/liufanfanlff/RoboUniview