منذ 2 أشهر
معالجة خطأ تقريب الدالة في طرق الممثل-الناقد (Actor-Critic Methods)
Scott Fujimoto; Herke van Hoof; David Meger

الملخص
في طرق التعلم التعزيزي القائمة على القيمة مثل التعلم العميق Q، يُعرف أن أخطاء تقريب الدالة تؤدي إلى تقديرات قيمة مبالغ فيها وسياسات غير مثلى. نوضح أن هذه المشكلة تستمر في إعداد الفاعل-الناقد (actor-critic) ونقترح آليات جديدة ل minimization تأثيرها على كل من الفاعل والناقد. خوارزميتنا تستند إلى التعلم المزدوج Q، وذلك من خلال اتخاذ القيمة الأدنى بين زوج من النقاد لتقييد الإفراط في التقدير. نربط بين شبكات الهدف (target networks) وميول الإفراط في التقدير، ونقترح تأخير تحديثات السياسة لتقليل الخطأ لكل تحديث وتحسين الأداء بشكل أكبر. قمنا بتقييم طريقة عملنا على مجموعة مهام OpenAI Gym، حيث حققنا أفضل النتائج في كل بيئة تم اختبارها.