HyperAIHyperAI
منذ 2 أشهر

استكشاف القائم على العد مع التمثيل اللاحق

Marlos C. Machado; Marc G. Bellemare; Michael Bowling
استكشاف القائم على العد مع التمثيل اللاحق
الملخص

في هذا البحث، نقدم نهجًا بسيطًا للاستكشاف في تعلم التعزيز (RL) يتيح لنا تطوير خوارزميات مبررة نظريًا في الحالة الجدولية ولكن يمكن أيضًا توسيعها إلى بيئات تتطلب تقريب الدوال. يعتمد نهجنا على التمثيل اللاحق (SR)، والذي تم تقديمه أصلًا كتمثيل يحدد التعميم بين الحالات من خلال تشابه الحالات اللاحقة. هنا، نوضح أن معيار التمثيل اللاحق (SR)، أثناء تعلمه، يمكن استخدامه كمكافأة إضافية لتحفيز الاستكشاف. للفهم الأفضل لهذا السلوك المؤقت لمعيار التمثيل اللاحق (SR)، نقدم التمثيل اللاحق شبه العشوائي (SSR) ونوضح أنه يعد ضمنيًا عدد المرات التي تم فيها مشاهدة كل حالة (أو ميزة). نستخدم هذا النتيجة لتقديم خوارزمية تعمل بنفس جودة بعض النماذج النظرية ذات الكفاءة العينوية العالية. أخيرًا، نوسع هذه الأفكار إلى خوارزمية تعلم تعزيز عميقة ونوضح أنها تحقق أداءً رائدًا في ألعاب Atari 2600 عند العمل في نظام ذي تعقيد عينوي منخفض.

استكشاف القائم على العد مع التمثيل اللاحق | أحدث الأوراق البحثية | HyperAI