HyperAIHyperAI

Command Palette

Search for a command to run...

التحكم المستمر باستخدام التعلم العميق بالتعزيز

Timothy P. Lillicrap; Jonathan J. Hunt; Alexander Pritzel; Nicolas Heess; Tom Erez; Yuval Tassa; David Silver; Daan Wierstra

الملخص

نقوم بتكييف الأفكار التي تكمن وراء نجاح التعلم العميق Q لتناسب مجال الإجراءات المستمرة. نقدم خوارزمية فاعلة بدون نموذج تعتمد على التدرج السياسي الحتمي (الPoliticy Gradient) وتتضمن ممثلًا وناقدًا، وهي قادرة على العمل في فضاءات إجراءات مستمرة. باستخدام نفس خوارزمية التعلم، والهندسة المعمارية للشبكة العصبية والمعلمات الفائقة، تحل خوارزميتنا بشكل ثابت أكثر من 20 مهمة فيزيائية محاكاة، بما في ذلك المشكلات الكلاسيكية مثل رفع القطب على العربة (Cartpole Swing-Up)، التعامل الدقيق، الحركة الراجلة والقيادة بالسيارة. تتمكن خوارزميتنا من العثور على سياسات أداءها تنافسي مع تلك التي يجدتها خوارزمية التخطيط التي لديها حق الوصول الكامل إلى ديناميكيات المجال وأشتقاقاتها. كما نوضح أن الخوارزمية قادرة على تعلم السياسات من النهاية إلى النهاية: مباشرة من المدخلات البكسلية الخام للكثير من المهام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحكم المستمر باستخدام التعلم العميق بالتعزيز | مستندات | HyperAI