HyperAIHyperAI
منذ 2 أشهر

شبكات Q متعددة المرور للتعلم العميق التعزيزي مع فضاءات أفعال معلمة

Craig J. Bester; Steven D. James; George D. Konidaris
شبكات Q متعددة المرور للتعلم العميق التعزيزي مع فضاءات أفعال معلمة
الملخص

الإجراءات المعلمة في التعلم التعزيزي تتكون من إجراءات متقطعة مع معلمات إجراء مستمرة. وهذا يوفر إطارًا لحل المجالات المعقدة التي تتطلب دمج الإجراءات عالية المستوى مع التحكم المرن. يمتد خوارزمية P-DQN الحديثة إلى الشبكات العصبية العميقة لتعلم الفضاءات الإجرائية هذه. ومع ذلك، يتعامل مع جميع معلمات الإجراء كمدخل مشترك واحد للشبكة Q، مما يجعل أسسها النظرية غير صالحة. نقوم بتحليل المشكلات المتعلقة بهذا النهج واقترحنا طريقة جديدة تُعرف بالشبكات العصبية العميقة متعددة الدورات، أو MP-DQN، لمعالجتها. نثبت بشكل تجريبي أن MP-DQN تتفوق بشكل كبير على P-DQN وعلى الخوارزmiات السابقة الأخرى من حيث كفاءة البيانات وأداء السياسة المتقاربة في مجالات Platform وRobot Soccer Goal وHalf Field Offense (منصة، هدف كرة القدم الروبوتية، وهجوم نصف الملعب).

شبكات Q متعددة المرور للتعلم العميق التعزيزي مع فضاءات أفعال معلمة | أحدث الأوراق البحثية | HyperAI