Command Palette
Search for a command to run...
أضف سياساتك! تحسين السياسات الروبوتية القائمة على التشتت أو التدفق من خلال التكوين على مستوى التوزيع في وقت الاختبار

الملخص
أظهرت النماذج القائمة على الانتشار (Diffusion-based models) في التحكم الروبوتي، بما في ذلك سياسات الرؤية-اللغة-الإجراء (VLA) وسياسات الرؤية-الإجراء (VA)، قدرات كبيرة. ومع ذلك، يُعاني تقدم هذه النماذج من تكلفة عالية في جمع مجموعات بيانات تفاعلية كبيرة الحجم. تقدم هذه الدراسة منهجًا بديلًا لتعزيز أداء السياسات دون الحاجة إلى تدريب نموذج إضافي. وبشكل مفاجئ، نُظهر أن السياسات المركبة يمكن أن تفوق أداء أي من السياسات الأصلية. تتمثل إسهاماتنا في ثلاث جوانب رئيسية. أولاً، نُرسي أساسًا نظريًا يُظهر أن التراكب البوهني (convex composition) لدرجات التوزيع من نماذج انتشار متعددة يمكن أن يؤدي إلى دالة هدف أحادية الخطوة أفضل من أي درجة فردية. ثم نستخدم حدًا من نوع غرونوال (Grönwall-type bound) لإثبات أن تحسين الخطوة الواحدة هذا يُنتقل عبر مسارات التوليد الكاملة، مما يؤدي إلى تحسينات أداء منهجية. ثانيًا، مستوحاة من هذه النتائج، نقترح طريقة تُسمى "التركيب العام للسياسات" (General Policy Composition - GPC)، وهي طريقة لا تتطلب تدريبًا، تُحسّن الأداء من خلال دمج درجات التوزيع لسياسات مُدرّبة مسبقًا متعددة عبر تراكب بوهني، مع استخدام بحث في وقت التقييم (test-time search). تتميز GPC بالتنوع، حيث تسمح بتجميع سياسات متنوعة، بما في ذلك نماذج VA وVLA، وكذلك النماذج القائمة على الانتشار أو مطابقة التدفق (flow-matching)، بغض النظر عن نوع الوسائط البصرية المدخلة. ثالثًا، نقدم تحققًا تجريبيًا واسع النطاق. وقد أثبتت التجارب على معايير Robomimic وPushT وRoboTwin، إلى جانب تقييمات واقعية على روبوتات حقيقية، أن GPC تُحسّن أداءً وملاءمةً بشكل متسق عبر مجموعة متنوعة من المهام. كما تُقدّم تحليلًا إضافيًا للعوامل البديلة للتركيب واستراتيجيات الترجيح، مما يُعطي رؤى حول الآليات الكامنة وراء نجاح GPC. تُثبت هذه النتائج أن GPC طريقة بسيطة ولكنها فعالة جدًا لتحسين أداء التحكم من خلال الاستفادة من السياسات الموجودة مسبقًا.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.