Command Palette
Search for a command to run...
متوسط الممثل الناقد
متوسط الممثل الناقد
Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1
الملخص
نقترح خوارزمية جديدة، وهي خوارزمية الوسيط والممثل المتوسط (Mean Actor-Critic - MAC)، لتعلم التعزيز مع أفعال منفصلة وحالة مستمرة. تستخدم خوارزمية MAC تمثيل الممثل الصريح لجميع قيم الأفعال لتقييم تدرج السياسة، بدلاً من استخدام الأفعال التي تم تنفيذها فعليًا فقط. نثبت أن هذا النهج يقلل من التباين في تقدير تدرج السياسة مقارنة بطرق الوسيط والممثل التقليدية. نقدم نتائج تجريبية على مجالين للتحكم وعلى ستة ألعاب آتاري، حيث تكون خوارزمية MAC متنافسة مع الخوارزميات الرائدة في البحث عن السياسة.