منذ 2 أشهر
شبكات Q متعددة المرور للتعلم العميق التعزيزي مع فضاءات أفعال معلمة
Craig J. Bester; Steven D. James; George D. Konidaris

الملخص
الإجراءات المعلمة في التعلم التعزيزي تتكون من إجراءات متقطعة مع معلمات إجراء مستمرة. وهذا يوفر إطارًا لحل المجالات المعقدة التي تتطلب دمج الإجراءات عالية المستوى مع التحكم المرن. يمتد خوارزمية P-DQN الحديثة إلى الشبكات العصبية العميقة لتعلم الفضاءات الإجرائية هذه. ومع ذلك، يتعامل مع جميع معلمات الإجراء كمدخل مشترك واحد للشبكة Q، مما يجعل أسسها النظرية غير صالحة. نقوم بتحليل المشكلات المتعلقة بهذا النهج واقترحنا طريقة جديدة تُعرف بالشبكات العصبية العميقة متعددة الدورات، أو MP-DQN، لمعالجتها. نثبت بشكل تجريبي أن MP-DQN تتفوق بشكل كبير على P-DQN وعلى الخوارزmiات السابقة الأخرى من حيث كفاءة البيانات وأداء السياسة المتقاربة في مجالات Platform وRobot Soccer Goal وHalf Field Offense (منصة، هدف كرة القدم الروبوتية، وهجوم نصف الملعب).