HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات Q متعددة المرور للتعلم العميق التعزيزي مع فضاءات أفعال معلمة

Craig J. Bester; Steven D. James; George D. Konidaris

الملخص

الإجراءات المعلمة في التعلم التعزيزي تتكون من إجراءات متقطعة مع معلمات إجراء مستمرة. وهذا يوفر إطارًا لحل المجالات المعقدة التي تتطلب دمج الإجراءات عالية المستوى مع التحكم المرن. يمتد خوارزمية P-DQN الحديثة إلى الشبكات العصبية العميقة لتعلم الفضاءات الإجرائية هذه. ومع ذلك، يتعامل مع جميع معلمات الإجراء كمدخل مشترك واحد للشبكة Q، مما يجعل أسسها النظرية غير صالحة. نقوم بتحليل المشكلات المتعلقة بهذا النهج واقترحنا طريقة جديدة تُعرف بالشبكات العصبية العميقة متعددة الدورات، أو MP-DQN، لمعالجتها. نثبت بشكل تجريبي أن MP-DQN تتفوق بشكل كبير على P-DQN وعلى الخوارزmiات السابقة الأخرى من حيث كفاءة البيانات وأداء السياسة المتقاربة في مجالات Platform وRobot Soccer Goal وHalf Field Offense (منصة، هدف كرة القدم الروبوتية، وهجوم نصف الملعب).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp