سياسة التشتت ثلاثية الأبعاد: تعلم سياسة حركية بصرية قابلة للتعميم من خلال تمثيلات ثلاثية الأبعاد بسيطة

توفر التعلم بالمحاكاة طريقة فعّالة لتعليم الروبوتات المهارات الدقيقة؛ ومع ذلك، فإن تعلُّم المهارات المعقدة بشكل موثوق وقابل للتوسع يتطلب عادةً كميات كبيرة من التمثيلات البشرية. ولحل هذه المشكلة الصعبة، نقدّم سياسة الت(diffusion) ثلاثية الأبعاد (DP3)، وهي منهجية جديدة للتعلم البصري بالمحاكاة تُدمج قوة التمثيلات البصرية ثلاثية الأبعاد في سياسات الت(diffusion)، وهي فئة من نماذج إنشاء الإجراءات الشرطية. وتتمحور تصميم DP3 الأساسي على استخدام تمثيل بصري ثلاثي الأبعاد مكثف، يتم استخلاصه من سحابات نقاط نادرة باستخدام مشفر نقاط فعّال. وفي تجاربنا التي شملت 72 مهمة في بيئة المحاكاة، نجح DP3 في التعامل مع معظم المهام باستخدام فقط 10 تجارب محاكاة، وتفوّق على النماذج الأساسية بنسبة 24.2% في التحسين النسبي. وفي 4 مهام حقيقية على الروبوتات، أظهر DP3 تحكمًا دقيقًا بدرجة نجاح عالية تبلغ 85%، مع تدريب محدود بـ 40 تجربة لكل مهمة، كما أظهر قدرات ممتازة على التعميم في جوانب متنوعة، بما في ذلك الفضاء، والزاوية المرئية، والشكل، والكائنات المختلفة. وبشكل مثير للاهتمام، في التجارب الواقعية على الروبوتات، نادرًا ما يتجاوز DP3 حدود المتطلبات الأمنية، على عكس النماذج الأساسية التي تُخلّ بالمتطلبات الأمنية بشكل متكرر، ما يستدعي تدخلًا بشريًا. وتُبرز تقييماتنا الشاملة الأهمية الحاسمة للتمثيلات ثلاثية الأبعاد في تعلّم الروبوتات في البيئة الحقيقية. يمكن الاطلاع على مقاطع الفيديو والكود والبيانات عبر الرابط: https://3d-diffusion-policy.github.io