منذ 8 أشهر

الملخص

الإجراءات المعلمة في التعلم التعزيزي تتكون من إجراءات متقطعة مع معلمات إجراء مستمرة. وهذا يوفر إطارًا لحل المجالات المعقدة التي تتطلب دمج الإجراءات عالية المستوى مع التحكم المرن. يمتد خوارزمية P-DQN الحديثة إلى الشبكات العصبية العميقة لتعلم الفضاءات الإجرائية هذه. ومع ذلك، يتعامل مع جميع معلمات الإجراء كمدخل مشترك واحد للشبكة Q، مما يجعل أسسها النظرية غير صالحة. نقوم بتحليل المشكلات المتعلقة بهذا النهج واقترحنا طريقة جديدة تُعرف بالشبكات العصبية العميقة متعددة الدورات، أو MP-DQN، لمعالجتها. نثبت بشكل تجريبي أن MP-DQN تتفوق بشكل كبير على P-DQN وعلى الخوارزmiات السابقة الأخرى من حيث كفاءة البيانات وأداء السياسة المتقاربة في مجالات Platform وRobot Soccer Goal وHalf Field Offense (منصة، هدف كرة القدم الروبوتية، وهجوم نصف الملعب).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار