استكشاف القائم على العد باستخدام نماذج الكثافة العصبية

قدم بيلامار وآخرون (2016) مفهوم العد الوهمي، المستمد من نموذج الكثافة، لتوسيع استكشاف القائم على العد إلى التعلم التعزيزي غير الجدولية. تم استخدام هذا العد الوهمي لتوليد مكافأة استكشاف لمُعزِّز DQN (DQN agent) وعندما تم دمجه مع تحديث مونتي كارلو المختلط، كان كافيًا لتحقيق أحدث ما وصلت إليه التقنية في لعبة "مونتيزوما ريفينج" (Montezuma's Revenge) على جهاز Atari 2600.نعتبر في هذه الدراسة سؤالين لم يتم الإجابة عليهما في عمل بيلامار وآخرون: الأول، مدى أهمية جودة نموذج الكثافة للاستكشاف؟ والثاني، ما هو الدور الذي يلعبه تحديث مونتي كارلو في الاستكشاف؟ نجيب على السؤال الأول من خلال إظهار استخدام PixelCNN، وهو نموذج عصبي متقدم للكثافة للصور، لتوفير العد الوهمي. وبشكل خاص، نفحص الصعوبات الداخلية في تكييف نهج بيلامار وآخرون عندما يتم انتهاك الافتراضات حول النموذج. النتيجة هي خوارزمية أكثر عملية وإطلاقًا لا تتطلب أي أجهزة خاصة. نقوم بدمج عدود PixelCNN الوهمية مع هياكل وكيل مختلفة لتحسين أحدث ما وصلت إليه التقنية بشكل كبير في عدة ألعاب صعبة على Atari. أحد الاكتشافات المفاجئة هو أن تحديث مونتي كارلو المختلط هو ميسِّر قوي للاستكشاف في البيئات الأقل كثافةً، بما في ذلك لعبة "مونتيزوما ريفينج".