HyperAIHyperAI
منذ 11 أيام

مُشِّعُ الْمُمَثِّل 3D: تَوْزِيعُ الْمُبَادِرَةِ بِاسْتِعْمَالِ مَثَالِ الْمَكَانِ 3D

{and Katerina Fragkiadaki, Nikolaos Gkanatsios*, Tsung-Wei Ke*}
مُشِّعُ الْمُمَثِّل 3D: تَوْزِيعُ الْمُبَادِرَةِ بِاسْتِعْمَالِ مَثَالِ الْمَكَانِ 3D
الملخص

نُزِّج بين سياسات التشتت وتمثيلات المشهد ثلاثية الأبعاد لتمكين الروبوت من التلاعب. تعتمد سياسات التشتت على تعلّم توزيع الإجراءات بشروط حالتَي الروبوت والبيئة باستخدام نماذج التشتت المشروطة، وقد أظهرت مؤخرًا تفوقها على كل من الطرق التقليدية الثابتة وطرق تعلّم توزيع الإجراءات المشروطة بالحالة. أما السياسات الروبوتية ثلاثية الأبعاد، فهي تعتمد على تمثيلات ميزات المشهد ثلاثية الأبعاد تُجمع من منظور واحد أو أكثر باستخدام بيانات العمق المستشعرة. وقد أثبتت هذه الأساليب تفوقها في التعميم مقارنةً بأساليب الـ2D عبر زوايا كاميرات مختلفة. نُوحِد هذين المسارين البحثيين ونقدّم معمارية سياسة عصبية تُسمى 3D Diffuser Actor، التي، بالاعتماد على تعليمات لغوية، تبني تمثيلًا ثلاثي الأبعاد للصورة البصرية، ثم تُشَرِّع التمثيل لإجراء تكرارات تصفية التلوث (Denoising) لتدويرات وتحوّلات ثلاثية الأبعاد لطرف الروبوت النهائية. في كل تكرار لتصفية التلوث، تمثل نماذجنا تقديرات وضع طرف الروبوت (End-effector) كـ "رموز مشهد ثلاثية الأبعاد"، وتنبئ بخطأ التحويل والتدوير ثلاثي الأبعاد لكل منها، وذلك من خلال تمييز الميزات باستخدام انتباه نسبي ثلاثي الأبعاد تجاه رموز بصرية ولغوية أخرى ثلاثية الأبعاد. وقد حققت 3D Diffuser Actor أداءً جديدًا على معيار RLBench، مع تحقيق مكسب أداء مطلق قدره 16.3% مقارنةً بالحالة الحالية الأفضل (SOTA) في بيئة متعددة الزوايا، و13.1% في بيئة من زاوية واحدة. أما على معيار CALVIN، فقد تفوقت على الحالة الحالية الأفضل في سياق التعميم على مشاهد غير مرئية مسبقًا، حيث تمكنت من إتمام 0.2 مهمة إضافية بنجاح، ما يمثل زيادة نسبية قدرها 7%. كما أظهرت الأداء الفعّال في العالم الحقيقي بناءً على عدد قليل من الأمثلة. قمنا بتحليل التصميم المعماري لنموذجنا، مثل تمييز المشهد ثلاثي الأبعاد والانتباه النسبي ثلاثي الأبعاد، وبيّنا أن جميع هذه العناصر تسهم في تحسين التعميم. تشير نتائجنا إلى أن تمثيلات المشهد ثلاثية الأبعاد والنمذجة التوليدية القوية تمثلان المفتاح لتعلم فعّال للروبوتات من خلال الأمثلة.

مُشِّعُ الْمُمَثِّل 3D: تَوْزِيعُ الْمُبَادِرَةِ بِاسْتِعْمَالِ مَثَالِ الْمَكَانِ 3D | أحدث الأوراق البحثية | HyperAI