HyperAIHyperAI
منذ 2 أشهر

متوسط الممثل الناقد

Cameron Allen; Kavosh Asadi; Melrose Roderick; Abdel-rahman Mohamed; George Konidaris; Michael Littman
متوسط الممثل الناقد
الملخص

نقترح خوارزمية جديدة، وهي خوارزمية الوسيط والممثل المتوسط (Mean Actor-Critic - MAC)، لتعلم التعزيز مع أفعال منفصلة وحالة مستمرة. تستخدم خوارزمية MAC تمثيل الممثل الصريح لجميع قيم الأفعال لتقييم تدرج السياسة، بدلاً من استخدام الأفعال التي تم تنفيذها فعليًا فقط. نثبت أن هذا النهج يقلل من التباين في تقدير تدرج السياسة مقارنة بطرق الوسيط والممثل التقليدية. نقدم نتائج تجريبية على مجالين للتحكم وعلى ستة ألعاب آتاري، حيث تكون خوارزمية MAC متنافسة مع الخوارزميات الرائدة في البحث عن السياسة.

متوسط الممثل الناقد | أحدث الأوراق البحثية | HyperAI