HyperAIHyperAI
منذ 11 أيام

Act3D: تحويلات الحقل المميز ثلاثي الأبعاد لمهام التلاعب الروبوتي متعددة المهام

Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki
Act3D: تحويلات الحقل المميز ثلاثي الأبعاد لمهام التلاعب الروبوتي متعددة المهام
الملخص

تمثيلات الإدراك الثلاثية الأبعاد مناسبة جدًا لمهام التلاعب بالروبوتات، حيث تُمكّن بسهولة من ترميز الظلال (الإغلاق البصري) وتبسيط الاستدلال المكاني. تتطلب العديد من مهام التلاعب دقة فائقة في توقع موضع نهاية الأداة (end-effector)، وهو ما يفرض عادةً استخدام شبكات ميزات ثلاثية الأبعاد عالية الدقة، والتي تكون مكلفة حسابيًا في المعالجة. ونتيجة لذلك، تعمل معظم سياسات التلاعب مباشرة في البعد الثاني (2D)، مع التنازل عن التحيزات الثلاثية الأبعاد (3D inductive biases). في هذه الورقة، نقدّم نموذج Act3D، وهو سياسة تلاعب مبنية على نموذج محول (transformer) تمثل مساحة عمل الروبوت باستخدام حقل ميزات ثلاثي الأبعاد (3D feature field) ذات دقة متغيرة تعتمد على المهمة المطلوبة. يقوم النموذج بترقية الميزات ثنائية الأبعاد المُدرّبة مسبقًا إلى الأبعاد الثلاثية باستخدام بيانات العمق المُستشعرة، ثم يُجري انتباهًا (attention) عليها لحساب ميزات للنقاط الثلاثية الأبعاد المُستخرجة. كما يقوم النموذج بعينة شبكات نقاط ثلاثية الأبعاد بطريقة خشنة إلى دقيقة، ويُميّز هذه النقاط باستخدام انتباه مبني على الموضع النسبي (relative-position attention)، ويتّخذ قرارًا بتركيز الجولة التالية من العينات. وبهذه الطريقة، يُحسب بفعالية خرائط إجراءات ثلاثية الأبعاد ذات دقة مكانية عالية. حقق نموذج Act3D أداءً جديدًا في مستوى الصدارة (state-of-the-art) على منصة RLBench، وهي معيار معروف لمهام التلاعب، حيث حقق تحسنًا مطلقًا بنسبة 10% مقارنة بالسياسة السابقة من نوع 2D متعددة الزوايا على 74 مهمة من RLBench، وتحسنًا مطلقًا بنسبة 22% مع استخدام فقط ثلث حسابات الموارد مقارنة بالسياسة الثلاثية الأبعاد السابقة من نوع SOTA. قمنا بقياس أهمية الانتباه المكاني النسبي، وقيمة النماذج الكبيرة المُدرّبة مسبقًا على الصور واللغة ثنائية الأبعاد (vision-language pre-trained 2D backbones)، وفائدة ربط الأوزان (weight tying) بين طبقات الانتباه من الخشنة إلى الدقيقة من خلال تجارب تحليلية (ablation studies). يمكن الاطلاع على الكود والفيديوهات على موقع المشروع: https://act3d.github.io/.

Act3D: تحويلات الحقل المميز ثلاثي الأبعاد لمهام التلاعب الروبوتي متعددة المهام | أحدث الأوراق البحثية | HyperAI