HyperAIHyperAI

Command Palette

Search for a command to run...

سياسة التمايز المتكافئ

Dian Wang Stephen Hart David Surovik Tarik Kelestemur Haojie Huang Haibo Zhao Mark Yeatman Jiuguang Wang Robin Walters Robert Platt

الملخص

أظهرت الدراسات الحديثة أن نماذج الانتشار (Diffusion Models) تُعدّ منهجًا فعّالًا لتعلم التوزيعات متعددة الوسائط الناتجة عن بيانات التمثيل في التعلم من السلوك (Behavior Cloning). ومع ذلك، يُعدّ عيب هذا المنهج هو الحاجة إلى تعلّم دالة إزالة الضوضاء (Denoising Function)، التي تكون أكثر تعقيدًا بكثير من تعلّم سياسة صريحة. في هذا العمل، نقترح منهجًا جديدًا يُسمّى "سياسة الانتشار المتماثل" (Equivariant Diffusion Policy)، والذي يستفيد من التناظرات المجالية (Domain Symmetries) لتحقيق كفاءة أعلى في العينات وتحسين في التعميم ضمن دالة إزالة الضوضاء. ونُحلّل نظريًا تناظر (\mathrm{SO}(2)) في التحكم الكامل بست درجات حرية (6-DoF)، ونُوصِف الظروف التي تجعل نموذج الانتشار متماثلًا بالنسبة لـ (\mathrm{SO}(2)). كما نُقيّم المنهج تجريبيًا على مجموعة من 12 مهمة في بيئة محاكاة MimicGen، ونُظهر أنه يحقق معدل نجاح أعلى بمتوسط 21.9% مقارنةً بالنموذج الأساسي (Baseline Diffusion Policy). ونُقيّم أيضًا الأداء على نظام واقعي، مما يُظهر أن سياسات فعّالة يمكن تعلّمها باستخدام عدد قليل نسبيًا من عينات التدريب، في حين أن النموذج الأساسي لا يستطيع تحقيق ذلك.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp