منذ 2 أشهر

هياكل الشبكات المتنافسة للتعلم العميق بالتعزيز

Ziyu Wang; Tom Schaul; Matteo Hessel; Hado van Hasselt; Marc Lanctot; Nando de Freitas

الملخص

في السنوات الأخيرة، شهد استخدام التمثيلات العميقة في تعلم التعزيز العديد من النجاحات. ومع ذلك، فإن العديد من هذه التطبيقات لا تزال تعتمد على الهندسات التقليدية مثل الشبكات الإدراكية المتكررة (الشبكية)، LSTM، أو المُشفِّرات التلقائية (auto-encoders). في هذا البحث، نقدم هندسة شبكة عصبية جديدة لتعلم التعزيز بدون نموذج. شبكتنا المتنافسة تمثل مقدرين منفصلين: أحدهما للدالة قيمة الحالة والآخر للدالة الفائدة المرتبطة بالحالة للأفعال. الفائدة الرئيسية لهذا التحليل إلى عوامل هي تعميم التعلم عبر الأفعال دون فرض أي تغيير على خوارزمية تعلم التعزيز الأساسية. تظهر نتائجنا أن هذه الهندسة تقود إلى تقييم سياسة أفضل في وجود العديد من الأفعال ذات القيم المشابهة. بالإضافة إلى ذلك، فإن الهندسة المتنافسة تمكّن وكيلنا لتعلم التعزيز من تحقيق أداء يتفوق على أحدث ما وصل إليه العلم في مجال ألعاب Atari 2600.