سياسات تحويلية تفتيتية فعّالة مع مزيج من المُخصّصين المُنظّفين لتعلم متعدد المهام

أصبحت السياسات التبادلية (Diffusion Policies) شائعة على نطاق واسع في التعلم بالمحاكاة (Imitation Learning)، حيث تتميز بعدة خصائص جذابة، مثل إنتاج سلوك متعدد النماذج ومتقطع. ومع تزايد حجم النماذج لاستيعاب قدرات أكثر تعقيدًا، تزداد متطلبات الحوسبة، كما يُظهره قانون التوسع الأخير (recent scaling laws). وبالتالي، فإن الاستمرار باستخدام الهياكل الحالية سيؤدي إلى عائق حسابي. وللتغلب على هذا الفجوة، نقترح مزيجًا من الخبراء المُنظّفين (Mixture-of-Denoising Experts - MoDE) كسياسة جديدة للتعلم بالمحاكاة. تتفوق MoDE على أحدث السياسات القائمة على نموذج الـ Transformer (Transformer-based Diffusion Policies)، مع تمكين التوسع الفعّال من حيث المعلمات من خلال استخدام خبراء نادرة (sparse experts) ومسار توجيه يعتمد على الضوضاء (noise-conditioned routing)، مما يقلل من عدد المعلمات الفعّالة بنسبة 40%، ويقلل من تكاليف الاستدلال بنسبة 90% عبر استخدام التخزين المؤقت للخبراء (expert caching). تعتمد البنية المُقترحة على دمج هذا التوسع الفعّال مع آلية انتباه ذاتي مُوجّهة بالضوضاء (noise-conditioned self-attention)، مما يُمكّن من تحسين عملية إزالة الضوضاء بشكل أكثر فعالية عبر مستويات ضوضاء مختلفة. تحقق MoDE أداءً متقدمًا على مستوى الحالة (state-of-the-art) في 134 مهمة ضمن أربع معايير معتمدة للتعلم بالمحاكاة (CALVIN و LIBERO). وبشكل لافت، وباستخدام التدريب المسبق على بيانات روبوتية متنوعة، نحصل على نتيجة 4.01 في معيار CALVIN ABC و0.95 في معيار LIBERO-90. وتتفوق MoDE على كل من السياسات القائمة على الشبكات العصبية التلافيفية (CNN-based) والسياسات التبادلية القائمة على الـ Transformer بمتوسط 57% عبر أربع معايير، مع استخدام 90% أقل من العمليات الحسابية (FLOPs)، وأقل عدد من المعلمات الفعّالة مقارنة بالبنية الافتراضية للـ Diffusion Transformer. علاوةً على ذلك، نُجري تحليلات معمقة (comprehensive ablations) على مكونات MoDE، مما يُقدّم رؤى قيمة لتصميم هياكل الـ Transformer الفعّالة والقابلة للتوسع للسياسات التبادلية. يتوفر الكود والتطبيقات التوضيحية على الرابط: https://mbreuss.github.io/MoDE_Diffusion_Policy/.