سياسة التمايز المتكافئ

أظهرت الدراسات الحديثة أن نماذج الانتشار (Diffusion Models) تُعدّ منهجًا فعّالًا لتعلم التوزيعات متعددة الوسائط الناتجة عن بيانات التمثيل في التعلم من السلوك (Behavior Cloning). ومع ذلك، يُعدّ عيب هذا المنهج هو الحاجة إلى تعلّم دالة إزالة الضوضاء (Denoising Function)، التي تكون أكثر تعقيدًا بكثير من تعلّم سياسة صريحة. في هذا العمل، نقترح منهجًا جديدًا يُسمّى "سياسة الانتشار المتماثل" (Equivariant Diffusion Policy)، والذي يستفيد من التناظرات المجالية (Domain Symmetries) لتحقيق كفاءة أعلى في العينات وتحسين في التعميم ضمن دالة إزالة الضوضاء. ونُحلّل نظريًا تناظر (\mathrm{SO}(2)) في التحكم الكامل بست درجات حرية (6-DoF)، ونُوصِف الظروف التي تجعل نموذج الانتشار متماثلًا بالنسبة لـ (\mathrm{SO}(2)). كما نُقيّم المنهج تجريبيًا على مجموعة من 12 مهمة في بيئة محاكاة MimicGen، ونُظهر أنه يحقق معدل نجاح أعلى بمتوسط 21.9% مقارنةً بالنموذج الأساسي (Baseline Diffusion Policy). ونُقيّم أيضًا الأداء على نظام واقعي، مما يُظهر أن سياسات فعّالة يمكن تعلّمها باستخدام عدد قليل نسبيًا من عينات التدريب، في حين أن النموذج الأساسي لا يستطيع تحقيق ذلك.