مُتجه التقييم الطوري

نقدّم إطار العمل التدرّجي للسياسة (PPG)، وهو إطار لتعلم التفعيل الذي يُعدّل الطرق التقليدية المُطبّقة على سياسة مُستندة إلى المُراقبة (on-policy) من خلال تقسيم تدريب السياسة ودالة القيمة إلى مراحل منفصلة. في الأساليب السابقة، كان يجب الاختيار بين استخدام شبكة مشتركة أو شبكات منفصلة لتمثيل السياسة ودالة القيمة. إذ يُقلّل استخدام شبكات منفصلة من التداخل بين الأهداف، بينما يُتيح استخدام شبكة مشتركة مشاركة الميزات المفيدة. ويُمكن لـ PPG تحقيق أفضل ما في كلا الجانبين من خلال تقسيم عملية التحسين إلى مرحلتين: إحداهما تُعزّز التدريب، والأخرى تُستخلص الميزات. كما يُتيح PPG تحسين دالة القيمة بشكل أكثر عدوانية، مع مستوى أعلى من إعادة استخدام العينات. مقارنةً بـ PPO، نلاحظ أن PPG يُحسّن بشكل كبير كفاءة استخدام العينات في معيار Procgen التحديّ، وهو معيار معروف بصعوبته.