هياكل الشبكات المتنافسة للتعلم العميق بالتعزيز

في السنوات الأخيرة، شهد استخدام التمثيلات العميقة في تعلم التعزيز العديد من النجاحات. ومع ذلك، فإن العديد من هذه التطبيقات لا تزال تعتمد على الهندسات التقليدية مثل الشبكات الإدراكية المتكررة (الشبكية)، LSTM، أو المُشفِّرات التلقائية (auto-encoders). في هذا البحث، نقدم هندسة شبكة عصبية جديدة لتعلم التعزيز بدون نموذج. شبكتنا المتنافسة تمثل مقدرين منفصلين: أحدهما للدالة قيمة الحالة والآخر للدالة الفائدة المرتبطة بالحالة للأفعال. الفائدة الرئيسية لهذا التحليل إلى عوامل هي تعميم التعلم عبر الأفعال دون فرض أي تغيير على خوارزمية تعلم التعزيز الأساسية. تظهر نتائجنا أن هذه الهندسة تقود إلى تقييم سياسة أفضل في وجود العديد من الأفعال ذات القيم المشابهة. بالإضافة إلى ذلك، فإن الهندسة المتنافسة تمكّن وكيلنا لتعلم التعزيز من تحقيق أداء يتفوق على أحدث ما وصل إليه العلم في مجال ألعاب Atari 2600.