Command Palette
Search for a command to run...
اختبار الأداء للتعلم القوي العميق للتحكم المستمر
اختبار الأداء للتعلم القوي العميق للتحكم المستمر
Duan Yan Chen Xi Houthooft Rein Schulman John Abbeel Pieter
الملخص
في الآونة الأخيرة، حقق الباحثون تقدماً ملحوظاً في دمج التطورات التي طرأت على التعلم العميق لاستخلاص تمثيلات الميزات مع التعلم التعزيزي. ومن الأمثلة البارزة ذلك تدريب الوكلاء على لعب ألعاب آتاري باستخدام بيانات بكسل خام، وكذلك اكتساب مهارات متقدمة في المعالجة باستخدام مدخلات حسية خام. ومع ذلك، ظل من الصعب قياس التقدم في مجال التحكم المستمر نظراً لغياب معيار مقبول على نطاق واسع. في هذه الدراسة، نقدّم مجموعة معايير لمهام التحكم المستمر، تشمل مهام كلاسيكية مثل رفع عصا العربة (Cart-Pole Swing-Up)، ومهام ذات أبعاد عالية جدًا في الحالة والعمل (state and action dimensionality)، مثل التنقل ثلاثي الأبعاد للإنسان الآلي (3D Humanoid Locomotion)، بالإضافة إلى مهام ذات ملاحظات جزئية، ومهام ذات بنية متعددة المستويات (hierarchical structure). ونُعلن عن نتائج جديدة مستندة إلى تقييم منهجي لسلسلة من خوارزميات التعلم التعزيزي المُطبقة. وتم إتاحة المعيار والتنفيذ المرجعي على منصة GitHub عبر الرابط التالي: https://github.com/rllab/rllab، بهدف تعزيز إمكانية إعادة التجربة وتشجيع الباحثين الآخرين على استخدامه.