منذ 2 أشهر
قوس قزح: دمج التحسينات في التعلم العميق بالتعزيز
Matteo Hessel; Joseph Modayil; Hado van Hasselt; Tom Schaul; Georg Ostrovski; Will Dabney; Dan Horgan; Bilal Piot; Mohammad Azar; David Silver

الملخص
مجتمع التعلم العميق بالتعزيز قد أدخل عدة تحسينات مستقلة على خوارزمية DQN. ومع ذلك، فإنها غير واضحة فيما يتعلق بتكملة هذه التعديلات وما إذا كان يمكن دمجها بشكل مثمر. يدرس هذا البحث ستة تعديلات لخوارزمية DQN ويقوم بدراستها تجريبيًا من خلال الدمج. تظهر تجاربنا أن هذا الدمج يقدم أداءً في طليعة المجال على معيار Atari 2600، سواء من حيث كفاءة البيانات أو الأداء النهائي. كما نقدم أيضًا نتائج دراسة تقليص مفصلة توضح مساهمة كل مكون في الأداء الكلي.