Command Palette
Search for a command to run...
RVT: محول الرؤية الروبوتية للتعامل مع الأجسام ثلاثية الأبعاد
RVT: محول الرؤية الروبوتية للتعامل مع الأجسام ثلاثية الأبعاد
Ankit Goyal Jie Xu Yijie Guo Valts Blukis Yu-Wei Chao Dieter Fox
الملخص
بالنسبة لمهام التلاعب بالكائنات ثلاثية الأبعاد، تُظهر الطرق التي تُنشئ تمثيلًا ثلاثي الأبعاد صريحًا أداءً أفضل من الطرق التي تعتمد فقط على صور الكاميرا. ولكن استخدام تمثيلات ثلاثية الأبعاد صريحة، مثل البكسلات (Voxels)، يتطلب تكلفة حوسبة كبيرة، مما يؤثر سلبًا على قابلية التوسع. في هذه الدراسة، نقترح RVT، وهو نموذج تحويلي متعدد الزوايا للتحكم ثلاثي الأبعاد، يتميز بالدقة والقابلية للتوسع معًا. من أبرز ميزات RVT آلية الانتباه لدمج المعلومات عبر الزوايا المختلفة، وإعادة عرض إدخال الكاميرا من زوايا افتراضية تحيط بمجال عمل الروبوت. في البيئات المحاكاة، وجدنا أن نموذج RVT الواحد يمكنه الأداء بشكل جيد في 18 مهمة من مهام RLBench، مع 249 تغيرًا في المهام، محققًا نسبة نجاح نسبية أعلى بنسبة 26٪ مقارنة بالطريقة الحالية الأفضل (PerAct). كما أن التدريب على RVT يتم بسرعة تزيد عن 36 مرة مقارنة بـ PerAct لتحقيق نفس الأداء، ويحقق سرعة استنتاج تبلغ 2.3 مرة من سرعة PerAct. علاوة على ذلك، يمكن لـ RVT تنفيذ مجموعة متنوعة من مهام التلاعب في العالم الحقيقي باستخدام عدد قليل جدًا من الأمثلة (حوالي 10 أمثلة لكل مهمة). تُوفر النتائج البصرية، والكود البرمجي، والنماذج المدربة عبر الرابط: https://robotic-view-transformer.github.io/.