HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف القائم على العد باستخدام نماذج الكثافة العصبية

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos

الملخص

قدم بيلامار وآخرون (2016) مفهوم العد الوهمي، المستمد من نموذج الكثافة، لتوسيع استكشاف القائم على العد إلى التعلم التعزيزي غير الجدولية. تم استخدام هذا العد الوهمي لتوليد مكافأة استكشاف لمُعزِّز DQN (DQN agent) وعندما تم دمجه مع تحديث مونتي كارلو المختلط، كان كافيًا لتحقيق أحدث ما وصلت إليه التقنية في لعبة "مونتيزوما ريفينج" (Montezuma's Revenge) على جهاز Atari 2600.نعتبر في هذه الدراسة سؤالين لم يتم الإجابة عليهما في عمل بيلامار وآخرون: الأول، مدى أهمية جودة نموذج الكثافة للاستكشاف؟ والثاني، ما هو الدور الذي يلعبه تحديث مونتي كارلو في الاستكشاف؟ نجيب على السؤال الأول من خلال إظهار استخدام PixelCNN، وهو نموذج عصبي متقدم للكثافة للصور، لتوفير العد الوهمي. وبشكل خاص، نفحص الصعوبات الداخلية في تكييف نهج بيلامار وآخرون عندما يتم انتهاك الافتراضات حول النموذج. النتيجة هي خوارزمية أكثر عملية وإطلاقًا لا تتطلب أي أجهزة خاصة. نقوم بدمج عدود PixelCNN الوهمية مع هياكل وكيل مختلفة لتحسين أحدث ما وصلت إليه التقنية بشكل كبير في عدة ألعاب صعبة على Atari. أحد الاكتشافات المفاجئة هو أن تحديث مونتي كارلو المختلط هو ميسِّر قوي للاستكشاف في البيئات الأقل كثافةً، بما في ذلك لعبة "مونتيزوما ريفينج".


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp