RVT-2: تعلم التحكم الدقيق من عدد قليل من العروض التوضيحية

في هذا البحث، ندرس كيفية بناء نظام روبوتي يُمكنه حل مهام متعددة في ثلاثية الأبعاد بناءً على تعليمات لغوية. لكي يكون هذا النظام مفيدًا في المجالات الصناعية والمنزلية، يجب أن يكون قادرًا على تعلم مهام جديدة من خلال عدد قليل من التوضيحات وحلها بدقة عالية. قد درست البحوث السابقة، مثل PerAct و RVT، هذه المشكلة، ومع ذلك غالبًا ما تواجه صعوبة في المهام التي تتطلب دقة عالية. ندرس كيفية جعل هذه النماذج أكثر فعالية ودقة وسرعة. باستخدام مجموعة من التحسينات على المستوى المعماري وعلى مستوى النظام، نقترح RVT-2، وهو نموذج معالجة ثلاثي الأبعاد متعدد المهام يتدرب بسرعة 6 أضعاف ويستنتج بسرعة ضعفين مقارنة بنموذجه السابق RVT. حقق RVT-2 مستوى جديدًا من الطليعة في RLBench، حيث ارتفعت نسبة النجاح من 65٪ إلى 82٪. كما أنه فعال في العالم الحقيقي، حيث يمكنه تعلم المهام التي تتطلب دقة عالية، مثل التقاط وإدخال المسامير (plugs)، بمجرد 10 توضيحات فقط. يمكن الوصول إلى النتائج البصرية والكود والنماذج المدربة عبر الرابط التالي: https://robotic-view-transformer-2.github.io/.