HyperAIHyperAI
منذ 2 أشهر

توحيد استكشاف العد والدافع الذاتي

Marc G. Bellemare; Sriram Srinivasan; Georg Ostrovski; Tom Schaul; David Saxton; Remi Munos
توحيد استكشاف العد والدافع الذاتي
الملخص

نعتبر حالة عدم اليقين التي يواجهها العميل (agent) حول بيئته والمشكلة المتعلقة بتعميم هذا عدم اليقين عبر الملاحظات. بصفة خاصة، نركز على مشكلة الاستكشاف في التعلم التعزيزي غير الجدوليف (non-tabular reinforcement learning). مستوحين من أدبيات الدافع الذاتي (intrinsic motivation)، نستخدم نماذج الكثافة لقياس عدم اليقين، ونقترح خوارزمية جديدة لاستنتاج عدد مزيف (pseudo-count) من أي نموذج كثافة. هذه التقنية تمكننا من تعميم خوارزميات الاستكشاف القائمة على العد إلى الحالة غير الجدوليف. نطبق أفكارنا على ألعاب Atari 2600، مما يوفر لنا عدداً مزيفاً معقولاً من البكسل الخام. نحول هذه الأعداد المزيفة إلى مكافآت ذاتية ونحقق تحسيناً كبيراً في الاستكشاف بعدد من الألعاب الصعبة، بما في ذلك اللعبة الشهيرة بصعوبتها Montezuma's Revenge.