الملخص

نقترح خوارزمية جديدة، وهي خوارزمية الوسيط والممثل المتوسط (Mean Actor-Critic - MAC)، لتعلم التعزيز مع أفعال منفصلة وحالة مستمرة. تستخدم خوارزمية MAC تمثيل الممثل الصريح لجميع قيم الأفعال لتقييم تدرج السياسة، بدلاً من استخدام الأفعال التي تم تنفيذها فعليًا فقط. نثبت أن هذا النهج يقلل من التباين في تقدير تدرج السياسة مقارنة بطرق الوسيط والممثل التقليدية. نقدم نتائج تجريبية على مجالين للتحكم وعلى ستة ألعاب آتاري، حيث تكون خوارزمية MAC متنافسة مع الخوارزميات الرائدة في البحث عن السياسة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار