الملخص

نقوم بتكييف الأفكار التي تكمن وراء نجاح التعلم العميق Q لتناسب مجال الإجراءات المستمرة. نقدم خوارزمية فاعلة بدون نموذج تعتمد على التدرج السياسي الحتمي (الPoliticy Gradient) وتتضمن ممثلًا وناقدًا، وهي قادرة على العمل في فضاءات إجراءات مستمرة. باستخدام نفس خوارزمية التعلم، والهندسة المعمارية للشبكة العصبية والمعلمات الفائقة، تحل خوارزميتنا بشكل ثابت أكثر من 20 مهمة فيزيائية محاكاة، بما في ذلك المشكلات الكلاسيكية مثل رفع القطب على العربة (Cartpole Swing-Up)، التعامل الدقيق، الحركة الراجلة والقيادة بالسيارة. تتمكن خوارزميتنا من العثور على سياسات أداءها تنافسي مع تلك التي يجدتها خوارزمية التخطيط التي لديها حق الوصول الكامل إلى ديناميكيات المجال وأشتقاقاتها. كما نوضح أن الخوارزمية قادرة على تعلم السياسات من النهاية إلى النهاية: مباشرة من المدخلات البكسلية الخام للكثير من المهام.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار