IMPALA: معمارية موزعة قابلة للتوسيع للتعلم العميق مع تعزيز الأهمية الموزونة للممثل والآلة التعليمية

في هذا العمل، نهدف إلى حل مجموعة كبيرة من المهام باستخدام وكيل تعزيز واحد مع مجموعة واحدة من المعلمات. التحدي الرئيسي هو التعامل مع الزيادة الكبيرة في كمية البيانات وامتداد وقت التدريب. لقد طورنا وكيلًا موزعًا جديدًا يُسمى IMPALA (الهندسة المعمارية الفاعلة-المتعلمة ذات الأهمية الموزونة) الذي لا يقتصر على استخدام الموارد بكفاءة أعلى في تدريب الجهاز الواحد فحسب، بل يمكن توسيعه أيضًا لتشمل آلاف الأجهزة دون التضحية بكفاءة البيانات أو استغلال الموارد. نحقق التعلم المستقر بمرور عالي من خلال الجمع بين الفعل المنفصل والتعلم مع طريقة تصحيح خارج السياسة جديدة تُعرف باسم V-trace. نوضح فعالية IMPALA في التعلم بالتعزيز متعدد المهام على DMLab-30 (مجموعة من 30 مهمة من بيئة DeepMind Lab (Beattie et al., 2016)) وAtari-57 (جميع ألعاب Atari المتاحة في بيئة التعلم آركيد (Bellemare et al., 2013a)). تظهر نتائجنا أن IMPALA قادر على تحقيق أداء أفضل من الوكلاء السابقة باستخدام كمية أقل من البيانات، وأنه وبشكل حاسم يظهر نقلًا إيجابيًا بين المهام نتيجة لنهجه متعدد المهام.