تقييم أداء التعلم العميق التعزيزي للتحكم المستمر

في الآونة الأخيرة، حقق الباحثون تقدماً ملحوظاً في دمج التقدم المحرز في التعلم العميق لاستخراج تمثيلات الخصائص مع التعلم التعزيزي. من بين الأمثلة البارزة على ذلك تدريب الوكلاء على لعب ألعاب Atari باستخدام بيانات البكسل الخام وتعلم مهارات التحكم المتقدمة باستخدام المدخلات الحسية الخام. ومع ذلك، كان من الصعب قياس التقدم في مجال التحكم المستمر بسبب عدم وجود مقاييس مشتركة ومتفق عليها. في هذا العمل، نقدم مجموعة مقاييس للتحكم المستمر تتضمن مهاماً كلاسيكية مثل رفع القطب على العربة (cart-pole swing-up)، ومهام ذات بُعد حالتها وأفعالها مرتفع جداً مثل حركة الإنسان ثلاثي الأبعاد (3D humanoid locomotion)، ومهام ذات ملاحظات جزئية، ومهام ذات بنية هرمية. نقوم بتقرير نتائج جديدة استناداً إلى تقييم منهجي لمجموعة من خوارزميات التعلم التعزيزي التي تم تنفيذها. تم إطلاق كل من مجموعة المقاييس والتنفيذ المرجعي على https://github.com/rllab/rllab بهدف تسهيل إمكانية إعادة إنتاج التجارب وتشجيع باقي الباحثين على استخدامها.