HyperAIHyperAI

Command Palette

Search for a command to run...

متوسط الممثل الناقد

Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1

الملخص

نقترح خوارزمية جديدة، وهي خوارزمية الوسيط والممثل المتوسط (Mean Actor-Critic - MAC)، لتعلم التعزيز مع أفعال منفصلة وحالة مستمرة. تستخدم خوارزمية MAC تمثيل الممثل الصريح لجميع قيم الأفعال لتقييم تدرج السياسة، بدلاً من استخدام الأفعال التي تم تنفيذها فعليًا فقط. نثبت أن هذا النهج يقلل من التباين في تقدير تدرج السياسة مقارنة بطرق الوسيط والممثل التقليدية. نقدم نتائج تجريبية على مجالين للتحكم وعلى ستة ألعاب آتاري، حيث تكون خوارزمية MAC متنافسة مع الخوارزميات الرائدة في البحث عن السياسة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp