Command Palette
Search for a command to run...
التحكم المستمر باستخدام التعلم العميق بالتعزيز
التحكم المستمر باستخدام التعلم العميق بالتعزيز
Timothy P. Lillicrap; Jonathan J. Hunt; Alexander Pritzel; Nicolas Heess; Tom Erez; Yuval Tassa; David Silver; Daan Wierstra
الملخص
نقوم بتكييف الأفكار التي تكمن وراء نجاح التعلم العميق Q لتناسب مجال الإجراءات المستمرة. نقدم خوارزمية فاعلة بدون نموذج تعتمد على التدرج السياسي الحتمي (الPoliticy Gradient) وتتضمن ممثلًا وناقدًا، وهي قادرة على العمل في فضاءات إجراءات مستمرة. باستخدام نفس خوارزمية التعلم، والهندسة المعمارية للشبكة العصبية والمعلمات الفائقة، تحل خوارزميتنا بشكل ثابت أكثر من 20 مهمة فيزيائية محاكاة، بما في ذلك المشكلات الكلاسيكية مثل رفع القطب على العربة (Cartpole Swing-Up)، التعامل الدقيق، الحركة الراجلة والقيادة بالسيارة. تتمكن خوارزميتنا من العثور على سياسات أداءها تنافسي مع تلك التي يجدتها خوارزمية التخطيط التي لديها حق الوصول الكامل إلى ديناميكيات المجال وأشتقاقاتها. كما نوضح أن الخوارزمية قادرة على تعلم السياسات من النهاية إلى النهاية: مباشرة من المدخلات البكسلية الخام للكثير من المهام.